讀書筆記| 面向資料科學家的實用統計學
date: 2019-03-13 17:11:37
title: 讀書筆記| 面向資料科學家的實用統計學
- 系統梳理資料科學中重要的統計學概念, 演示統計學方法在資料科學中的應用
- github:https://github.com/andrewgbruce/statistics-for-data-scientists
- R Tutorial:http://www.r-tutor.com/
mind
- 老生常談, 關注「原書名」, 可以幫助你很好的瞭解這本書到底要講啥: 「Practical Statistics for Data Scientists: 50 Essential Concepts」
- 關於術語: 資料科學 = 統計學 + 電腦科學 + 資訊科技 + 一些特定領域的研究, 「術語滿天飛」是常態, 而我一向的觀點認為 -- 術語是一道無形的牆, 看似很難, 實則只是「知道就很簡單, 不知道以為很難」. 同時, 它們也代表著這個領域的知識儲備.
- 資料科學從業者的參考書: 實用統計學術語 + 資料探勘行為和實踐. 同理, 非資料科學從業者, 更多的是瞭解概念, 加深對資料科學的印象, 以及嘗試 run 一下示例.
- 程式碼使用 R 語言: 語言都是圖靈完備的, R 語言能實現的, 作為資料分析的大戶 Python 語言也一定可以. 但是能熟練使用 R 語言的人就不那麼多了. 雖然 docker run 一個 R 語言環境很簡單, 面對起程式碼來還是有 「熟悉度」 帶來的不小障礙
note
本書並非又一本統計學教程, 也不是機器學習手冊. 它運用清晰的解釋和豐富的示例, 將實用的統計學術語與當下的資料探勘行為和實踐聯絡起來. 對資料科學從業者來說, 這都是一本非常出色的參考書.
- 為什麼探索性資料分析是資料科學關鍵的第一步
- 隨機抽樣如何降低偏差, 生成高質量資料集
- 實驗設計原則如何針對問題生成確定性答案
- 如何使用迴歸方法估計結果並檢測異常
- 用於預測記錄所屬類別的主要分析分類方法
- 從資料中「學習」的統計機器學習方法
- 從未標記資料中提取有意義資訊的無監督學習方法
如果你不知道自己在尋找什麼, 那麼努力尋找吧, 終會發現它. -- Yogi Berra
為此, 人們提出了統計假設檢驗方法, 目的是使研究人員免受隨機性的愚弄.
正則化是一種通過修改的代價函式去 「懲罰」 模型複雜度(聯想一下奧卡姆剃刀原理)的技術.
均值迴歸現象
女士品茶 -- 費舍爾 -- 數理統計學簡史(數理統計學史上相對有趣的故事)
提出假設 -> 設計實驗 -> 收集資料 -> 推斷/結論
樸素貝葉斯演算法
冷啟動問題
EDA, 探索性資料分析
estimate 估計量
metric 度量
EX
統計學習基礎: 資料探勘/推理和預測
統計學習基礎 ed2
統計學習導論: 基於 R 應用
資料探勘: 實用機器學習工具與技術
數理統計學簡史
百萬大決定: 世界是如何運作的?
PS: 還有許多論文 , 由於沒有受過專門的研究訓練, 對論文的處理能力還處在捉襟見肘階段, 只羅列了部分參考書籍.