學了這麼久,你知道Python機器學習全流程是怎樣的麼?
首先介紹一下機器學習的概念和地位,和其他的區別是?
機器學習的核心任務是?
機器學習的全流程是?
我們將上述流程拆解出來看:
1.需求來源是?需求天上來?被提需求到底是接還是不接?
2.老闆說沒有資料!還不捨得花錢買!讓我自己想辦法獲取!還得謝謝老闆點明方向,這可怎麼辦?
那你得會資料採集!
Python網路爬蟲就是一種資料採集手段,簡單來說就是個請求&解析的過程
那如何快速上手網路爬蟲呢?
你需要掌握以下內容並靈活選擇應用:
常用的請求庫:urllib、requests
常用的解析庫:BeautifulSoup、lxml
還有靈巧的資訊提取方式:css選擇器/xpath表示式
靜態網頁 & 動態網頁爬取方法等等
3.需求方給的資料一團糟,我該如何搞?
這就涉及髒資料的處理,所謂的髒資料,就是資料不夠整潔。
常見的問題有:
● 資料序列、尤其是長文字情形下。
● 數值變數中混有文字格式、格式混亂。
● 各種符號亂入。
● 資料記錄錯誤。
所以你需要學會處理髒資料的資料預處理和資料清洗,不要小看它們的重要性。
這些操作的時間佔到了全部機器學習專案的60%~70%的時間。
4.資料清洗完成,怎麼入手分析呢?
通過探索性資料分析,我看可以探索出:
● 資料分佈如何?
● 資料裡有什麼內容?
● 從資料中能找到什麼對分析有用的線索?
探索性資料分析的具體方法可以有:
● 資料基本概況(統計定量分析)
● 缺失值展示與探索
● 異常值與離群點展示與探索
● 目標變數重點分析
● 自變數與目標變數相關分析
● 統計繪圖與視覺化展示
5.資料預處理完成,作為機器學習,我們肯定是要用資料來訓練模型,我們在訓練模型時候是將資料所有欄位(列)都考慮用上麼?
一般來說並不是都使用,這裡要聊一聊特徵工程了。
那什麼是特徵工程呢?
特徵工程是最大程度從原始資料中汲取特徵和資訊來使得模型達到儘可能好的效果。
特徵工程包括:
● 資料預處理
● 特徵選擇
● 特徵變換與提取
● 特徵組合
● 資料降維
6.特徵工程做完了,我已經迫不及待建模了,選什麼模型合適呢?模型表現的話一般如何調優?
機器學習的常用模型你得了解:
● 哪些是有監督模型,哪些是無監督模型,哪些是半監督模型。
● 每個模型的適用情況和優缺點。
● 在sklearn庫裡如何呼叫相應模型。
● 對於不同模型調優如何調。
7.模型訓練好了,預測結果也輸出了,是不是得畫個圓滿句號寫份報告呢?
這裡涉及:
● 模型結果展示方式
● 資料分析報告撰寫套路
看到這裡,你可能還有一些疑問,例如:
● 機器學習中如何補救數學基礎薄弱?
● 機器學習的程式設計能力如何提高?
● Jupyter Notebook與PyCharm如何選擇?
● 機器學習零基礎有什麼書籍推薦?
● 機器學習學完之後如何實踐?
● 機器學習具體的需求分析如何實現?
● 資料清洗具體技術如何實現?
● 探索性資料分析具體流程是?做哪些視覺化?
● 在做特徵工程的時候除了要考慮模型,業務部分如何考慮?
● 機器學習比賽大殺器XGBoost模型如何實現?
● 機器學習模型調優如何修煉?
● 資料分析報告一般包含哪些部分,具體怎麼做,有哪些套路?
原文釋出時間為:2018-10-17
本文作者:小編