搞了一年大資料後,我有這些職場感悟
編者按:同文章作者一樣許多人對資料科學抱有許多期待或疑問。作者從自身經歷的角度,給出了一個初入職場的資料科學家的感悟。本文作者Abhishek Parbhakar,原文標題A year as a Data Scientist right after college: An honest review。
大學畢業後我就成為了一名資料科學家,到現在已經工作了一年。進入這個領域時我抱有各種各樣的期待,以下就是我的一些想法。
資料科學確實是一個回報不錯的領域,但也有其優缺點。這篇文章僅基於我有限的經驗和學識,因此你可以對我文中的觀點有所保留。
背景介紹
在說我的觀點之前,我想先簡單的介紹一下自己的背景。
我在學校的時候就很喜歡數學並學會了基礎的程式設計。後來,我在印度理工學院孟買分校(IIT Bombay)學習電氣工程,並與哈佛大學教授一起工作近一年,拿到科學計算碩士學位。畢業後,我進入了一家專注於AI的諮詢公司,為印度和歐洲的客戶做資料科學的專案。
我必須承認自己還處於學習初期。我有時會犯一些錯誤並且會自問:這些年來我學到了什麼?
1. 資料科學是很有趣的,如果……
資料科學是一個能讓你把所有炫酷的事情放在一塊做的稀有工作,它包括了數學、編碼和研究。這是一份早上讀論文,下午寫演算法,晚上編程式碼的工作。這真的很有趣!幾天前,當我訪問母校時,一位大三學生問我:我如何描述我的工作?我脫口而出:
就像有人付錢讓你做作業一樣!
但問題是:你只能做“某一些”數學運算、編碼和研究。你不能不做其中規定的任何部分,也無法在已給領域中深入。在某些情況下,你也許可以不用讀任何研究論文,就能直接使用程式碼庫並開始編碼。由於時間有限,你唯一有機會深入研究的部分就是資料準備(以及要進行的演示,如果有的話)。
如果你是一個熱愛編碼並非常想做這個工作的人,這中間的數學運算則會讓你發瘋。你沒有機會去展示你忍者般的編碼技能。從編碼愛好者變成資料科學家後,你只有兩個選擇:讓數學蹂躪你,或者你征服它。如果你是一個喜歡解決複雜問題的數學愛好者,那麼資料的準備和單調的程式設計又會讓你覺得乏味至極。一個形象的比喻是:
想象一下,如果有人給你一個訂書機,讓你去整理並裝訂一屋子的紙質檔案,感覺如何?這就是資料清理過程的感覺。 有時你可能會想,如果有人做資料準備的工作,而你只要根據其建立模型就好了。但不幸或者說幸運的是,這從來不會發生。
也許有人會說,這些你不喜歡的事情只佔據你所有工作中的一小部分,但事實是,它對於你的整個工作有著遠超於其自身比例的影響(參考帕累託定律)。
要想在資料科學領域堅持做下去,就要努力在編碼和數學/研究之間達到適當的平衡。最重要的是,要享受工作中的不同方面,並同時保持對結果的關注。
同樣,資料科學作為一個正在不斷進化發展的領域,它沒有任何明確的成功指南。這就需要大量辛苦的工作,不斷的學習,以及最重要的——忘卻(因為你不知道什麼時候“最好的”就變成了“還可以”)。
總結一下:
優點:資料科學讓你同時處理許多有意思的事:編碼、運算、研究,有時還包括演示。
缺點:資料科學可能不會讓你在其任何一個方面做得太深。
2. 資料科學說是“科學”其實更“商業”
行業裡的資料科學家跟在歐洲粒子物理研究所或者印度空間研究組織工作的科學家不一樣。資料科學家“真正”在做的是把科學的工具應用到商業裡,併為其創造價值。資料科學家的工作不是簡單的找到最優解決方法,而是找到一個易於向客戶解釋並可銷售的方案。
在資料科學中,當遇到競爭假設時,商業邏輯通常勝過科學邏輯。
瞭解人工智慧,尤其是熟知其子領域機器學習這塊你就可以開始資料科學的工作,但這還不夠。
要想在資料科學專案中有所作為,“科學”是不充分條件,你還需要知道經濟和市場,以讓你的工作具有商業價值。
3. 資料科學的工作是有影響力的,但其實跟其他工作一樣
作為一個數據科學家你“很可能”創造巨大的“影響”,但作為一個老師、一個軟體工程師、一個記者或者銷售員同樣可能創造巨大影響。
資料科學正在改變著我們的世界,這無可厚非。但作為一個數據科學家,你能夠發揮關鍵作用的領域是有限的。那種認為資料科學是“改變”網路世界的神祕力量的想法並不完全正確。
此外,“影響”這個詞是非常主觀的,對於其界定也有許多方面,如:
它有/創造了多少貨幣價值;
誰是最大的受益者;
你的在其中的角色有多獨特和重要;
它在多大程度上是可自我延續的。
你想要什麼樣的“影響”,而公司給你提供的機會能創造什麼樣的“影響”,這可能會有很大不同。
如果你是一個聰明且有野心的人,想要在資料科學領域做出“影響”,那麼確保你是“合適”這個領域的人,並且你所指的影響與公司能提供給你的機會一致。
4. 當下的經濟決定了資料科學
如今資料科學家是一個“搶手”的工作,以致許多招聘者經常聯絡你,問你是否考慮換公司的情況也不少見。資料科學家在公司裡很受尊重而且薪資不菲。
如果你的首要動機是錢的話,我建議你不必做一個數據科學家。
如果你做資料科學只是為了錢,那麼我想提醒你,同樣的經濟規則早晚會讓這樣的高收入消失。只有你對這個領域的興趣能夠讓你持續做下去。
5. 資料科學家的經驗是你的墊腳石
資料科學家的工作能幫助你在這個資料驅動的世界裡打下堅實基礎,並可以更切實地評估AI相關技術的侷限性及其功能。
即便你選擇離開現有的工作,作為一個數據科學家的經驗對你的未來是非常有益的。比如在:
學術研究上(作為碩士/博士/博士後/獨立研究者):資料科學家通常花費大量的時間在做實驗、讀科學文獻和與他們的同事討論想法上。所有這些工作對於做學 術研究來說都是非常可貴的。
初創企業中:當然你可以在一個AI創企裡擔任科技類的職位,或者開創你自己的公司同樣在資料科學領域。但你也可能在一個AI創企裡擔任一個非科技類的職位,例如銷售、商業策劃或者財務。你的知識和經驗能幫助你更好地理解和銷售產品,預估專案成本和其他所需,最重要的是你不會覺得自己是個門外漢。有很多理由讓你想要從事非科技類的工作,其中一個可能的理由就是在那些成功的科技企業的高管裡有不少是經常從事編碼工作的人。
政府以及國際組織中:各國政府越來越關注AI系統對社會的影響,以及如何最好地將其應用於可持續發展。你可以利用你作為資料科學家的經驗在AI政策相關領域工作,在這裡會需要對於AI的深刻理解以制定對社會最有益的政策法規。
注意:以上都是我的個人觀點,你可以同意或保持自己的觀點。我的目的不是寫理想的資料科學家的工作是怎樣的,也不是資料科學“應該”如何做,更不是描述誰可以成為一個數據科學家。這些只是我想分享的一些觀點,是我從這一年作 為“資料科學家”的工作中得來的。
編譯組出品,編輯:郝鵬程