機器學習=資料科學?N大區別要搞清
全文共2100字,預計學習時長4分鐘
(圖片來自Intersection Consulting公司)
當提到“資料科學”與“機器學習”的時候,有沒有覺得兩者有著諸多交叉而難以區分?如果是,那你必須讀一讀這篇文章。
本文闡釋了“資料科學”與“機器學習”之間幾個重要且易被忽視的區別,以幫助你更好地理解和學習,供你在學習生涯、職業道路選擇方面參考。
機器學習與資料科學
如今媒體在大肆炒作“機器學習”的概念,但是他們卻常常不注意自己的用詞。在大眾認知裡,機器學習具有廣泛意義的內涵,遠遠超過從業者所接觸到的範圍。
機器學習是數學優化的一種特定形式:通過訓練資料或經驗,無需顯示程式設計,而使計算機更好地完成某項任務。
具體過程如下:根據過去結果已知的案例建立模型,然後運用此模型對未來情況做出預測,想辦法使數值“誤差”或“成本”函式最小化(指預測結果與實際結果之間的誤差)。
請注意,一些重要的商業活動不在此定義的範圍之內:
1. 檢測資料是否匹配某個目標
2. 制定合適的目標
3. 執行系統與流程
4. 與不同利益相關者交流
人們對以上功能的需求使得資料科學成為一個獨立領域。《哈佛商業評論》告訴我們:資料科學家的關鍵技能不是建立使用深度學習基礎架構的能力,而是快速的學習能力與良好的溝通能力,以回答商業問題,向外行的利益相關者解釋複雜的結果。
其他作者也表示贊同:“我們認為,資料科學家最重要的特質是擁有多項技能——至少能夠單獨完成原型級版本的所有步驟,以獲得新的見解,或是打造資料產品。”
《哈佛商業評論》的其他文章也證實說:“機器學習的價值不在於更高階的演算法,而在於讓它使用起來更加容易……對大多數公司來說,差距不在於機器學習不起作用,而是它實際操作起來十分困難。”
機器學習只是資料科學家掌握的諸多技能中的一項,而非全部。將機器學習等同於資料科學,就像是將會計等同於運營一家盈利的公司一樣。另外,資料科學的技能差距很大程度上體現在機器學習的互補領域——商業敏感、統計、問題框架與溝通交流。
想成為資料科學家,尋求跨學科教育吧
毫無疑問,整個社會對資料科學家的需求越來越大。儘管如此,大多數廣受吹捧的資料科學教育計劃卻往往集中在機器學習的課堂中。
這是個很嚴重的問題。許多學生過分關注機器學習課程,不注重課程的平衡,由此產生了一大批想做資料科學卻又準備不充分的職場新手。
很多資料科學招聘經理都在面試時遇到過這樣的候選人:他們竭力誇大自己對機器學習的瞭解,卻幾乎不清楚基礎統計、偏差與方差,或是資料質量,更別說提出一個連貫的專案提案來完成商業目標了。
根據諸多內行人的經驗,軟體工程師似乎特別容易受到機器學習教育背景的影響。可以推測,這是因為機器學習所運用的思維方式與軟體工程師早已習慣的模式一樣:演算法式的、目標明確的聚合性思維。
機器學習的高度專業化教育看起來能夠保證學生找到更有趣的工作,還不要求任何基本認知的轉變。但遺憾的是,就業市場很少兌現這一承諾,許多踏上這條道路的人發現自己根本無法從工程師轉變為一名科學家。
資料科學需要掌握一種不同的思維模式:常常是發散的,定義不明的,且需要在技術領域不斷來回轉換。資料科學家基本上是通才,受益於廣泛而非深入的教育。更擅長於進行跨學科研究,而不是單一領域研究。
可擴充套件性與非可擴充套件性工作
在招募研究機器學習的專才之前,先招募通才型的資料科學家,會使大多數企業創造出更大的價值。要想明白其中的原因,就需要先了解可擴充套件與非可擴充套件性工作的差別。
建立通用的機器學習演算法屬於可擴充套件性工作——一旦有人設計並運行了某個演算法,其他所有人都可以使用這個演算法並且幾乎沒有複製成本。當然,每個人都想使用由最好的研究人員研發的最強的演算法,但是大多數公司都僱不起頂級演算法設計師。萬幸的是,公眾可以通過研究論文、開源庫與雲API瞭解頂級大牛們的大部分成果。因此,世界上最厲害的機器學習演算法設計師具有巨大的影響力,通才型的資料科學家得益於他們的成果,也能創造出巨大的影響。
相反,資料科學屬於不可擴充套件性工作。它需要了解某個特定公司的業務、需求和資產的具體情況。大多數具有一定規模的企業都需要自己的資料科學家。即使其他公司的資料科學家公佈了具體方法,但幾乎可以肯定的是,公司之間的某些問題和情況存在差別,別人的方法是不能完全照搬的。
當然,除了資料科學之外,還有許多有價值又有趣的職業。如果你正在考慮機器學習方面的職業,你得知道一個行業祕密:大公司裡的機器學習工程師實際上很少做與機器學習相關的事情。相反,他們將大部分時間用於構建資料處理流水線與模型部署基礎架構。如果你確實想做這些工作的話(往往也是很厲害的工作),我們仍然建議你別將學習重點僅放在機器學習演算法上,要多學習通用工程,DevOps操作和資料流水線基礎架構的知識。
雖然比起世界上最好的資料科學家,最好的機器學習專家可能能在人類知識方面做出更大的貢獻,但是老練的資料科學家能在更為廣泛的領域上發揮巨大的影響力。就業市場的實際情況就反映了這一點。如果你正在找工作,將機器學習教育僅當作“均衡膳食”的一部分,可能會讓你找到最好的工作;如果你希望提高公司的資料化水平,那你可能需要招募一位資料科學通才。
要警惕當下媒體的過度炒作,如果過度專注於機器學習,不學習基礎知識,也不精通機器學習的互補領域,那麼你在就業市場中並不會想預想的那樣受歡迎。
留言 點贊 發個朋友圈
我們一起分享AI學習與發展的乾貨
編譯組:吳夢涵、趙璇
相關連結:
https://www.kdnuggets.com/2018/12/learning-machine-learning-data-science.html