做資料科學如烤蛋糕？不服來看

資料科學資料探勘 · 發表 2018-10-15 12:21:49

摘要：面部識別、自動駕駛、機器人統治世界？！還有那個令人毛骨悚然的機器人女孩，索菲亞。emmm…還有黑鏡？我們想知道它們都是怎麼工作的。「這全是人工智慧。」是的。但我們想知道更多。資料科學、人工智慧、大資料、機器學習等都是最近的熱門詞彙。它們大多與谷歌、蘋果和亞馬遜等大型科技公...

面部識別、自動駕駛、機器人統治世界？！還有那個令人毛骨悚然的機器人女孩，索菲亞。emmm…還有黑鏡？

我們想知道它們都是怎麼工作的。「這全是人工智慧。」是的。但我們想知道更多。

資料科學、人工智慧、大資料、機器學習等都是最近的熱門詞彙。它們大多與谷歌、蘋果和亞馬遜等大型科技公司有關。

幸運的是，你不用成為一名資料科學家就能對資料科學有所瞭解。只要你對此熱愛、好奇即可。

什麼是資料科學？

要事第一！

向亞馬遜的聊天機器人尋求答案

資料科學使用數學和不同的機器學習方法（也稱演算法）來實現不同目的。

機器學習（ML）是編寫計算機程式的科學和藝術，它使計算機具有了學習能力。你的計算機現在可以從它觀察到的資料中學習，而不是像在傳統計算機程式中那樣盲目地遵循一套固定規則。你罵電腦是笨蛋的日子一去不復返了。

但是資料科學在哪裡發揮作用呢？就在我們身邊。Facebook 給你推薦可能認識的人、Youtube 預測股票市場價格的推薦系統，都需要資料科學。

資料科學按照一系列步驟來獲得這些答案，而使用機器學習演算法只是其中之一。

資料科學流程綜述

我們要明白這樣一個事實：無論電腦學什麼，它都是從資料中學習。將資料視為配料、資料預處理視為食譜、機器學習演算法視為烤箱、最終結果視為蛋糕。蛋糕的美味程度取決於原料的質量、食譜和烤箱溫度設定。同樣地，資料的質量非常重要，你採用的方法也是如此。

資料科學流程抽象圖

資料和資料預處理

因此，第一步是收集資料並進行處理。就像你要買食材一樣。

還需要確保資料與將要解決的問題相關。弄清楚需要多少資料，以及資料的形式（或格式），就像做蛋糕你要方糖還是砂糖？真實世界的資料集通常以表格形式顯示，例如.xls、.csv 或.json 等。

有大量不同的演算法可以幫助你進行資料清理和預處理。訓練模型的資料會極大地影響模型效能。就像食譜決定蛋糕的味道。

資料集型別

資料集是以適當格式收集所有示例的集合。它可以是一個*標註的*資料集，也可以是一個*未標註的*資料集。

標註的資料集是指具有特徵值及其結果的資料集。而未標註的資料集中只有特徵值。

特徵好比不同的食材，如：牛奶、黃油、糖和雞蛋是四個不同的特徵。這些特徵的結果是一個蛋糕。是特徵幫你得到結果。

這是真實資料集的樣子：

用於預測房價的標註資料集

選擇機器學習演算法

一旦資料集準備好了，就該使用機器學習演算法了。這就是把蛋糕糊放進烤箱。

資料集和標籤幫助你確定使用哪種演算法。就像如果你想做一些冰淇淋，你需要的不是烤箱而是冰箱。你的配料和配方也會改變。

可供選擇的演算法

訓練、測試、預測！

只學習測試中會出現的題目，你絕對會通過測試。但遇到沒見過的題，就不會考得很好了。我們希望模型即使在沒見過的例子上也能表現得很好。為了確保這一點，我們採用了一種技術。

我們將資料集分為兩組：訓練集和測試集。通常以 7:3 的比例來劃分，這樣有利於訓練。

我們的模型僅從訓練集的例子中學習。這樣劃分資料集可以幫助我們評估模型表現，明確提升空間。

訓練-測試分解圖

測試很簡單。你問，模型答，然後給模型打分。它起作用是因為你是在未見過的例子上評估模型。通過的標準取決於你的需求。通常 80% 的通過率是可以達到的。

如果模型在第一次嘗試中失敗，不要失望，因為在最初的嘗試中失敗是很正常的。這是因為開始時你總是使用較簡單的方法，然後根據測試得分，逐漸增加解決方案的複雜性。但在此之前，請重新評估你的資料集以及它的預處理方式。重複此過程，直到模型通過測試。

測試模型

一旦模型通過測試，就可以投入使用。換句話說，它為實時預測做好了準備。

提示：保持測試集中的資料模式與訓練集中的資料模式相同。

資料視覺化

既然你已經烤好了蛋糕，而且看起來很好吃，那就該上桌了。也許可以加一些糖霜，把它放在一個漂亮的托盤裡等等。讓它看起來更美味。

這就是資料視覺化。通過製作圖表，你可以利用不同的資料視覺化技術向受眾傳達你對資料的理解。資料視覺化可以在任何階段進行，你可以在訓練集中繪製現有的基礎圖案。

就像我說的，你不用成為資料科學家就能對資料科學有所瞭解。希望你喜歡我剛烤好的「蛋糕」。:cake::yum:

這是我寫的第一篇部落格。我最近開始了資料科學家的職業生涯。我覺得每個人——即使沒有技術背景——都應該瞭解資料科學的基礎知識。但是，大多數資料科學文章都充斥著技術術語，讓外行人讀起來佶屈聱牙，希望這篇文章能對你有所幫助。

原文連結：https://blog.goodaudience.com/data-science-a-piece-of-cake-92a70232e71f