業界深訪 | 研發總裁眼中的資料科學家
在大資料和機器學習的時代,有一種職業脫穎而出——資料科學家。資料科學家在近年來備受追捧,也有越來越多的人想投身入資料科學領域。
最近, CDA 採訪了幾位來自不同行業的資料科學團隊負責人,聊聊他們眼中的資料科學家是什麼樣的 ,以及對於初入資料科學行業的人群有些什麼建議。
今天請到的是來自TalkingData的研發副總裁——閻志濤,讓我們看看研發總裁眼中的資料科學家是什麼樣的吧。
點選播放採訪視訊,建議wifi下播放。
以下是採訪的文字整理部分
閻志濤 TalkingData,研發副總裁
大家好,我叫閻志濤,是TalkingData的研發副總裁。TalkingData於2011年成立,我是2012年加入的,到現在已經過了六年的時間。
Q1: 請介紹下您目前從事的資料科學相關的工作內容。
我們公司是既有資料也有業務,關於資料科學相關工作,首先是資料本身。這部分包含了資料治理、資料準備,以及把資料應用到不同的業務場景裡。比方說將資料建模提供給不同的客戶,以及通過我們的線上平臺,給企業客戶提供從資料到模型的能力。另外我們也在構建一個開放的平臺,賦能給其他資料科學家,利用我們的資料和平臺讓他們建模。
如今對於國內企業而言,資料科學家是現在稀缺的職業。因此我們公司在教育方面也做了些投入,比如TDU騰雲大學,而且還跟一些國外高校合作了“梧桐計劃”,讓優秀院校的畢業生能夠在我們這邊接受培訓,用我們的資料結合業務場景進行實踐。
對於資料科學而言,演算法方面如果有較好的數學基礎,掌握起來並不是特別難。但如果想落地,一定需要場景和資料。這是很多大學現在所欠缺的,沒有資料也沒有場景,只能拿像Kaggle裡的一些開源資料集去做嘗試。我們這裡有在生產中可以用的資料,有具體的問題讓他們去解決問題,去真正去鍛鍊自己的能力。
從我自己目前來講,我現在側重幾個方面。一個就是資料科學賦能,因為我們在打造我們自己的資料科學平臺。這個平臺實際上是一個開放的平臺,我們希望把自己的資料做一些處理,然後把它變成能讓大家用來建模的資料集。結合業務場景,讓不同公司的資料科學家能夠支援他們的業務,這是我們想做的事情。
這當中涉及到許多工作,我們需要做很多資料工程的工作,比方說清洗。然後平臺構建方面也需要很多資料整理工作。
我們現在做一個很有意思事情。關於資料,現在都在講GDPR,即資料隱私,如何做到資料脫敏。我們現在做的叫embedding,把我們的資料脫敏,變成機器能夠理解,但人不能理解的內容。
Q2:請分享下您工作中所做的具體案例。
眾所周知,如今大資料或者資料應用的典型場景是廣告或者營銷方面。這裡有一個非常常見的演算法,叫look alike,就是找相似人群。
我們大約從14年開始就在嘗試用Look alike,利用我們的資料幫助一些廣告主,或廣告的需求方平臺,提供更好的營銷效果。我們在不同的場景裡都做過使用,而且都取得不錯的效果。目前已經將程式碼部署到我們的資料智慧市場上,已經形成了標準化服務。也就是,使用者將自己的樣本種子資料傳上來,利用我們的資料,將其在種子人群放大,從而找到相似的人群進行精準營銷和投放,這是一個比較具體的案例。
Q3:您覺得當下企業需要的資料科學家應該具備哪些技能?
首先,對於資料科學家,硬技能是基礎。
第一,較好的資料工程基礎能力。 因為現在的資料科學家不像原來的資料分析師,並不是有人幫你清洗資料,幫你去做各種資料支援,你只需要做簡單的演算法模型就行了。
第二,資料整理和資料工程的能力。 現在大資料的場景裡,很多資料一開始並不那麼幹淨,你要能自己去整理這些資料。
第三,對資料的理解能力。 要做工程的話,如果不理解資料是很難的。雖然現在說深度學習可以不做特徵工程,但是對於大部分業務場景,對資料進行理解,然後去做特徵仍然是很關鍵的。
第四,資料科學能力,熟練掌握各種演算法。 這也是資料科學家區別於資料工程師的關鍵能力。演算法對於資料科學家來說,是你的安身立命的工具,是用來解決問題的重要工具。你必須瞭解在什麼場景下,面向什麼樣的資料,採用什麼演算法,去解決什麼樣的業務問題,這是核心技能。
第五,對業務的理解能力。 因為所有的資料科學它不是空中樓閣,資料科學家並不是只做科學,而是需要解決具體的業務問題。這時掌握業務領域知識,對業務理解就變得非常的關鍵。
第六,溝通能力。 這個軟技能對資料科學家也是非常關鍵的。因為資料科學家不是獨立工作,你要面向業務去解決問題。資料科學家跟工程師不太一樣,工程師的問題一般是確定性的,有時只要問題定義清楚就能去做了;但是科學家需要很多次迭代,這樣你跟業務團隊、跟不同的人溝通就變得非常關鍵。
第七,專案管理和時間管理都很關鍵。 資料科學工作經常需要多次迭代。如何管理整個不同的資源,如何控制時間,一步步=接近到你的目標也是至關重要的。
硬技能和軟技能一樣,對於資料科學家確實都是非常重要的,所以說這是一個非常綜合的職業。
Q3:您覺得資料科學家最核心的能力是什麼?
對數學科學家而言,資料科學是核心能力。
這裡可以去其他的幾個職業進行區分。資料工程師需要資料科學能力,但工程能力就更關鍵,而分析師業務理解更關鍵。資料科學家的核心素質,一定是演算法等相關能力。
一定要緊跟時代的發展。 目前,雖然人工智慧很熱,但整個資料科學還是在爬坡階段,各種新的演算法層出不窮。我覺得在掌握常見基礎演算法的情況下,一定要多去看國外的先進文獻和論文,去了解更新的演算法。因為當中有很多演算法,並不是大家能在大學裡學到的。
Q4:請您給正在職場打拼的資料分析師、資料工程師們一些職業發展建議!
實際上我是工程師出身的,這兩個角色確實不太相同。對於資料工程師來講, 想轉成資料科學家需要思維方式的轉變。
工程師解決的問題經常是具象的、確定性的 ,工程師一般是根據確定性的問題,找到解決方案。解決方案出來後,它就能出現確定性的結果。
但是 對於資料科學家而言,面向的結果是不確定性的。 你要要做好思想準備,在工作中逐步嘗試,接近更完美更好的效果。
在有思想準備之後,你還需要之前所提的硬技能。資料工程師的強項是工程能力,寫程式碼的能力。但資料科學需要掌握很多演算法,可以通過培訓、線上課程等資料補齊這些知識。大學裡學過的概率論、統計、線性代數等知識也需要複習。然後還需要再實際動手。面向問題找到對應問題的資料,去動手一步一步的梳理。
以上是我的一些建議和想法。
Q5:您對CDA LEVEL 3 資料科學家人才標準有何建議和期待?
就國內目前來說,資料科學家人才是比較缺乏的。CDA LEVEL 3的課程設定很好,能夠讓更多的人加入到資料科學隊伍裡來,為市場輸送很多優秀的資料分析人才,從而進一步強大資料科學團隊,這是非常有價值的。
原文釋出時間為:2018-10-25