[譯] 資料工程師進階計劃,這有一份 2019 開年自學清單
大資料文摘出品
作者:王嘉儀
優質大型的公司對於資料分析以及機器學習類崗位的需求高居前列。本文給出了針對小白和有簡單資料科學基礎的同學的學習計劃,可以讓你在浩如煙海的資料科學學習資料中找到自己的興趣。
萬事開頭難。 我先假設你是一個超級小白,你可以做出一個六個月學習計劃以及讀書清單進度表來給自己首先樹立自信。
學習計劃
1.Dataquest (2個月)
https://www.dataquest.io/dashboard
這裡有個網站對於初學者瞭解,從零開始python程式設計還是很友好的。不過它後期的進階學習部分有可能需要付費訪問,但對於新手來說,它可以引導你真正打出程式碼,它給出了一些公開的真實資料,然後學習整理和操作資料。
2.Automate The Boring Stuff (1個月)
https://automatetheboringstuff.com/
這本書是一個很好的材料,它讓我開始接觸Python的實際應用。它教會您如何使用python自動化手動任務,如重新命名檔案、移動文件和建立用於資料操作的csv檔案。
這個網站的內容儘管是全英文的,但它的內容都是由簡單的英語句式組成,這點好處就是你不能一步到位去理解標準化的科學術語,但你可以通過形象化的語言瞭解到這門學科的大概,同時不至於讓你喪失興趣。如果你具備基本的英文知識你就可以自己學下去。
3.Machine Learning AZ™: Hands-On Python & R In Data Science – Udemy (3周)
https://www.udemy.com/machinelearning
當你有了初步基礎的時候(懂高中數學就行),你可以在一個集中的課堂中加強你自學的內容。你不喜歡寫程式碼卻仍然對機器學習有很大的興趣,那麼推薦這個視訊,評論說這個視訊非常適合初學者上手真正的機器學習專案,它包括了大多數機器學習程式碼。它是Udemy上最受歡迎的機器學習課程,不過它現在已經要收費大概11美元。(仔細找找會有免費的)
4.Andrew Ng’s Machine Learning Course – Coursera (2個月)
https://www.coursera.org/learn/machine-learning
這個課程不用詳細介紹啦,幾乎人人知道,這是Coursera上最受好評的機器學習課程。雖然吳恩達(Andrew Ng)說在他的機器學習課程上已經儘量減少放入數學公式,更多的是介紹原理與思路,然而很多人覺得它是有相當的難度的。不過已經有了上面的學習基礎,你會更有信心看完全部的視訊。我強烈推薦您學習這門課程,它填補了上一個“A-Z機器學習”所沒有的空白,加深了你的理解。本課程著重於基礎概念,數學和機器學習的關鍵。你將學習如何手寫推到公式,計算損失函式和成本函式的含義。非常直觀和刺激。
5.Kaggle (1 個月)
https://www.kaggle.com/
企業或者研究者可以將資料、問題描述、期望的指標釋出到Kaggle上,以競賽的形式向廣大的資料科學家徵集解決方案,類似於KDD-CUP(國際知識發現和資料探勘競賽)。Kaggle上的參賽者將資料下載下來,分析資料,然後運用機器學習、資料探勘等知識,建立演算法模型,解決問題得出結果,最後將結果提交,如果提交的結果符合指標要求並且在參賽者中排名第一,將獲得比賽豐厚的獎金。
來到這裡意味著你已經可以開始解決實際問題了。我強烈建議你在上手之前,先學習已經處理過的問題,因為有很多指導和答案,你需要通過複製重現這些材料中的所有專案練手。Kaggle是免費的。
閱讀計劃
大量閱讀:不論是有關該主題的書籍,觀看教程還是收聽關於該主題的播客等。
模仿:反覆閱讀教程,按照作者的步驟自己執行一遍。最好從頭開始自己寫程式碼,動手做是對你大量閱讀後汲取技術訣竅最好的方法。
想法社群分享:向大佬提問。一般大牛文章的撰寫作者可以在Reddit,Discord,Slack或Twitter上看到其身影。尋求導師、夥伴。
重複動手:就算是一個小小的專案、教科書上的練習,Kaggle比賽或修復錯誤,一定要動手去做。
做好心理準備
現在,你已經給新的一年定下了基調。每天結束前你都能學到點東西,讓大腦只關注今日所學的code和如何操作這些任務。即便在工作中,你的大腦也能快速重現並消化你剛學的概念。
除了滿懷希望讓自己在這個月裡能解決一個Kaggle的問題以外,你還需要掌握自己的學習的思維和習慣。這個學科有大量的內容和概念需要學習和記憶,有一大堆的練習要做,你一定會倍感壓力。更大的阻力也來自你本身,有的時候你很容易喪失堅持下去的動力,很可能因為針對一個問題就已經讓你一遍又一遍的重複,但卻沒有任何效果。
此外,我們還有一個不良習慣:看到一個標題有意思的文章或者課程總是先把它收藏下,準備以後再看。但問題是,我們壓根不會去回放和反覆看,而且思路往往被這些新書、新的研究力量、最新的科學資料帶著跑,我可不是反對接受多樣時新的資源,而是說應該避開這些紛擾,專注的做好你自己的計劃,排好要學習的內容的優先性。
隨時堅持一定的時間,你一定會發展你已經悄悄的有了質的飛躍。到了後期,你就可以天天跑去看大神的blog和能夠讀懂他們底下的評論。
你現在完全都沉浸在自己定好的計劃的流程裡。我知道就算你把這些目標都寫下來你也不一定一一會完成,因為上班時候的你真的非常忙。但我肯定保證,能照著它做出來一丁點事都會放大你的成就感,從而堅定你的信念,別學著學著又去看社交媒體了,又去看什麼新熱點。
資料科學相關專業的學生
其次也有不少人是data science以及相關專業的科班出身的畢業生,即將走向社會去找到心儀的工作。在AI領域裡你可能會有這樣的頭銜,資料工程師、資料科學家、開發者。所以最好你有一個電子工程、電腦科學碩士博士的背景。大家剛剛從研究生畢業或者正準備選擇想要深造的領域。本文也可以給出一點點建議。
如果你是科班出身的,你肯定比我更瞭解去哪裡尋找更多的學習資料,不過我可以提出別的建議和想法供參考。
-
大膽一點
如果你做學術最重要是要找到自己的方向。 不要總步入前人步履,作為年輕人應有雄心勃勃,你有什麼好害怕失去的呢。 舉個例子,Jakub Langr在牛津大學物聯網資料科學課程上教授GAN。(他的部落格http://jakublangr.com/gans-tutorial.html)三年前他將職業賭注下在研究GAN上面,而很多人沒有這個魄力做這個決定,三年後,Jakub寫了我見過的關於GAN的最好的書籍之一。
-
瞭解市場
很多人都不覺得AI能作為一個“市場”,但實際上它已經和其他蓬勃發展的行業一樣,商業知識的細分領域一般會被低估,但現在AI應用這麼廣泛,你懂得如何利用這個潮流投資是很重要的事情。它在每一個非常細分和差異化的市場的人才都非常稀缺。現在有英國倫敦劍橋牛津等大學組織的傑出人才中心,以色列的內蓋夫大學的網路安全中心,印度班加羅爾以及中國各個機構都在蓬勃發展。
-
做一些大專案練手
因為AI的進入門檻已經提高。你不能還在用Mnist資料集,因為它很老套了已經被用了無數次。(MNIST 資料集可在 http://yann.lecun.com/exdb/mnist/ 獲取)所以你要出類拔萃你還是多學習做一些更難的專案, 可以看Piotr Skalski’s 的部落格。
https://towardsdatascience.com/@piotr.skalski92
-
強化你的研究能力
我在做學術研究時一直都不會脫離現實產業。所以AI領域的研究對現實會起到什麼作用非常重要。所以當你花費大量時間在這些研究論文上,你可以把它和實際結合起來。
-
小公司or大公司:
前者,你去一些專門建立在AI技術上的初創公司也會學到很多東西。後者,找一些很重視AI技術的公司,像微軟、谷歌、亞馬遜、臉書、英偉達等等,因為其他公司雖然可能產值很大,但它最終將落伍。
想做一個數據工程師,你也得學會分辨哪些專案是此刻急需要完成的。才能在未來有幸游到這片藍海的岸邊。所以你現在訓練的思維一定能給你未來的工作帶來很好的效果。有眼光的人們都會立刻行動起來!
聽說點了「好看」的人都變好看了哦