做資料科學如烤蛋糕?不服來看
面部識別、自動駕駛、機器人統治世界?!還有那個令人毛骨悚然的機器人女孩,索菲亞。emmm…還有黑鏡?
我們想知道它們都是怎麼工作的。「這全是人工智慧。」是的。但我們想知道更多。
資料科學、人工智慧、大資料、機器學習等都是最近的熱門詞彙。它們大多與谷歌、蘋果和亞馬遜等大型科技公司有關。
幸運的是,你不用成為一名資料科學家就能對資料科學有所瞭解。只要你對此熱愛、好奇即可。
什麼是資料科學?
要事第一!
向亞馬遜的聊天機器人尋求答案
資料科學使用數學和不同的機器學習方法(也稱演算法)來實現不同目的。
機器學習(ML)是編寫計算機程式的科學和藝術,它使計算機具有了學習能力。你的計算機現在可以從它觀察到的資料中學習,而不是像在傳統計算機程式中那樣盲目地遵循一套固定規則。你罵電腦是笨蛋的日子一去不復返了。
但是資料科學在哪裡發揮作用呢?就在我們身邊。Facebook 給你推薦可能認識的人、Youtube 預測股票市場價格的推薦系統,都需要資料科學。
資料科學按照一系列步驟來獲得這些答案,而使用機器學習演算法只是其中之一。
資料科學流程綜述
我們要明白這樣一個事實:無論電腦學什麼,它都是從資料中學習。將資料視為配料、資料預處理視為食譜、機器學習演算法視為烤箱、最終結果視為蛋糕。蛋糕的美味程度取決於原料的質量、食譜和烤箱溫度設定。同樣地,資料的質量非常重要,你採用的方法也是如此。
資料科學流程抽象圖
資料和資料預處理
因此,第一步是收集資料並進行處理。就像你要買食材一樣。
還需要確保資料與將要解決的問題相關。弄清楚需要多少資料,以及資料的形式(或格式),就像做蛋糕你要方糖還是砂糖?真實世界的資料集通常以表格形式顯示,例如.xls、.csv 或.json 等。
有大量不同的演算法可以幫助你進行資料清理和預處理。訓練模型的資料會極大地影響模型效能。就像食譜決定蛋糕的味道。
資料集型別
資料集是以適當格式收集所有示例的集合。它可以是一個*標註的*資料集,也可以是一個*未標註的*資料集。
標註的資料集是指具有特徵值及其結果的資料集。而未標註的資料集中只有特徵值。
特徵好比不同的食材,如:牛奶、黃油、糖和雞蛋是四個不同的特徵。這些特徵的結果是一個蛋糕。是特徵幫你得到結果。
這是真實資料集的樣子:
用於預測房價的標註資料集
選擇機器學習演算法
一旦資料集準備好了,就該使用機器學習演算法了。這就是把蛋糕糊放進烤箱。
資料集和標籤幫助你確定使用哪種演算法。就像如果你想做一些冰淇淋,你需要的不是烤箱而是冰箱。你的配料和配方也會改變。
可供選擇的演算法
訓練、測試、預測!
只學習測試中會出現的題目,你絕對會通過測試。但遇到沒見過的題,就不會考得很好了。我們希望模型即使在沒見過的例子上也能表現得很好。為了確保這一點,我們採用了一種技術。
我們將資料集分為兩組:訓練集和測試集。通常以 7:3 的比例來劃分,這樣有利於訓練。
我們的模型僅從訓練集的例子中學習。這樣劃分資料集可以幫助我們評估模型表現,明確提升空間。
訓練-測試分解圖
測試很簡單。你問,模型答,然後給模型打分。它起作用是因為你是在未見過的例子上評估模型。通過的標準取決於你的需求。通常 80% 的通過率是可以達到的。
如果模型在第一次嘗試中失敗,不要失望,因為在最初的嘗試中失敗是很正常的。這是因為開始時你總是使用較簡單的方法,然後根據測試得分,逐漸增加解決方案的複雜性。但在此之前,請重新評估你的資料集以及它的預處理方式。重複此過程,直到模型通過測試。
測試模型
一旦模型通過測試,就可以投入使用。換句話說,它為實時預測做好了準備。
提示:保持測試集中的資料模式與訓練集中的資料模式相同。
資料視覺化
既然你已經烤好了蛋糕,而且看起來很好吃,那就該上桌了。也許可以加一些糖霜,把它放在一個漂亮的托盤裡等等。讓它看起來更美味。
這就是資料視覺化。通過製作圖表,你可以利用不同的資料視覺化技術向受眾傳達你對資料的理解。資料視覺化可以在任何階段進行,你可以在訓練集中繪製現有的基礎圖案。
就像我說的,你不用成為資料科學家就能對資料科學有所瞭解。希望你喜歡我剛烤好的「蛋糕」。:cake::yum:
這是我寫的第一篇部落格。我最近開始了資料科學家的職業生涯。我覺得每個人——即使沒有技術背景——都應該瞭解資料科學的基礎知識。但是,大多數資料科學文章都充斥著技術術語,讓外行人讀起來佶屈聱牙,希望這篇文章能對你有所幫助。
原文連結:https://blog.goodaudience.com/data-science-a-piece-of-cake-92a70232e71f