新手如何快速入門資料分析?
CDA資料分析研究院原創作品, 轉載需授權
隨著網際網路迅猛發展,各大公司沉澱了很多的資料,如何找出藏在這些資料背後的規律,利用這些資料來給公司創造價值,作為一個新手面對這些問題的時候,你是不是考慮怎麼快速學習資料分析呢?
如果你的自學能力很強,那麼你可以參考網上的推薦書籍,自己拿起書本,找些案例開始學習。
如果你需要前輩的指導,那麼你可以按照CDA資料分析研究院的老師推薦的學習方法來學習資料分析:
首先,資料分析師需要三個方面的能力:技術(程式設計),資料分析方法,行業知識。
主要包括excel,sql,power BI
1)技術方面就是 SQL,主要學習資料庫語言的增刪查改, 建議從mysql入手,主要學習關係資料庫管理系統,主要學習單表查詢以及多表查詢,利用資料庫進行簡單的分析
2)Excel 也是要會一點的。不過 Excel 這種常用的辦公軟體,比如說做個圖,算算總合、平均之類的,熟練使用vlookup等幾個常用函式,稍微複雜點的資料透視表 (pivot) 就夠了。
3)如果SQL 上手比較快,時間充裕,那就練練 power BI, 主要目的是看看都有什麼樣的圖表,感受一下各自適用什麼樣的場景。具體怎麼做圖不是非常重要,真要用的時候搜尋一下現學就好了。最後就是學會使用power BI製作報表以及通過報表思考業務遇到的問題。
二、資料分析方法
常用的資料分析方法包括以下13種:
- 描述統計
描述性統計是指運用製表和分類,圖形以及計算概括性資料來描述資料的集中趨勢、離散趨勢、偏度、峰度。
- 假設檢驗
引數檢驗
引數檢驗主要包括U驗和T檢驗
1)U驗 使用條件:當樣本含量n較大時,樣本值符合正態分佈
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分佈
非引數檢驗
非引數檢驗是針對總體分佈情況做的假設,
主要方法包括:卡方檢驗、秩和檢驗、
檢驗等。
- 信度分析:檢査測量的可信度,例如調查問卷的真實性。
- 列聯表分析:用於分析離散變數或定型變數之間是否存在相關。
- 相關分析:研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。
- 方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分佈總體;各總體方差相等。
- 迴歸分析
包括:一元線性迴歸分析、多元線性迴歸分析、Logistic迴歸分析以及其他迴歸方法:非線性迴歸、有序迴歸、加權迴歸等
- 聚類分析:樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
- 判別分析:根據已掌握的一批分類明確的樣品建立判別函式,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
- 主成分分析:將彼此相關的一組指標轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要資訊 。
- 因子分析:一種旨在尋找隱藏在多變數資料中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
- R0C分析
R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱座標,假陽性率(1-特異度)為橫座標繪製的曲線
- 其他分析方法
時間序列分析、生存分析、對應分祈、決策樹分析、神經網路。
學習分析方法內容,使用方法,搞清楚這些演算法的使用條件背景,你就可以輕鬆入門一名資料分析師了,在學習資料分析方法的過程中,有什麼不懂得地方可以諮詢CDA資料分析老師。也可以讓CDA資料分析老師給您做一份詳細的資料分析學!
三、行業知識
這一部分就真的沒有什麼書可以看的了,基本都靠搜尋,總結,思考,再搜尋,總結,思考……如果平時對你的業務比較熟悉,這一部分會上手很快。
基本上把這些搞清楚,也差不多可以入門了吧。 資料分析入門並不難,入門之後的知識積累才是重點,如何在實際工作、專案中真正發揮資料分析的作用,產生價值。 希望新手學員可以儘快入門資料分析,如果有什麼不懂的地方,可以諮詢CDA資料分析研究院的老師。