大資料處理,學一下Google
切身體會,不要低估資料處理的重要性,不要只玩深度學習框架,有多少人工,就有多少智慧
Google在大資料領域的領軍地位,毋庸置疑,如今 很多人提起大資料,仍然言必稱 G oogle 的 “三駕馬車”:Google FS、MapReduce、BigTable。其實,新技術層出不窮,“ 三駕馬車”已不再是浪潮之巔。
近年來, 大資料技術的發展, 不論是 技術迭代,還是生態圈的繁榮,都遠超我們的想象。 從 Spark 成為 Hadoop 生態的一部分,到 Flink 橫空出世挑戰 Spark 成為大資料處理領域的新星,再到如今 Google 又決心用 Apache Beam 一統天下。 大資料技術的發展可謂跌宕起伏,波瀾壯闊。
大資料技術生態圈
豐富的工具,繁榮的生態,也增加了開發者選擇合適工具的難度。 把開源框架,工具,類庫,平臺整合到一起,所需要的工作量以及複雜度,可想而知。 技術的選擇與使用,也是大資料開發者非常頭疼的問題。
之前和 Google Brain 的工程師交流的時候,他提到在大資料領域,能把技術想明白,用明白的開發者太少了,一些中小型公司的技術 VP ,往往也是在“趕技術的時髦”的狀態中,更別說普通的開發者。 對大資料處理,比較常見的誤區有下面幾種:
1.低估了資料處理的重要性。
沒有高質量的資料處理,人工智慧只有人工沒有智慧。例如在語義理解上,Google 就曾犯過這樣的錯誤,直到被一家德國的小公司超過,才認識到高質量的資料標註和處理的重要性。
2.低估了資料處理工程師在組織架構上的重要性。
大資料領域泰斗級人物Jesse Anderson曾做過一項研究,一個人工智慧團隊的合理組織架構,需要4/5的資料處理工程師。其實,即使是一個寫前端的工程師,很多工作還是資料處理。很不幸,很多團隊沒有認識到這一點。
3.低估了資料處理規模變大帶來的複雜度。
很多人還沒有遇到過“大規模”的問題,因此容易把問題想的過於簡單。 Google有很多優秀的候選人,他們對常見的程式設計問題可以很好的解決,但只要 追問資料規模變大時怎麼設計系統,回答卻常常不盡人意。
4.高估了上手資料處理的難度。
一方面我們需要認識到大規模的資料處理是有複雜的因素的。但另一方面,有了正確的工具和技術理念,現在上手資料處理並不困難。在Google,很多應屆生入職半年後也能輕鬆應對上億的資料量。
為了幫你比別人更準確深入地掌握實用的大規模資料處理技術,甚至達到矽谷一線系統架構師的水平 ,給你推薦一個 極客時間的專欄《大規模資料處理實戰》,作者就是我上文提到的 Google Brain 的 資深 工程師,蔡元楠。
簡單提下 Google Brain(谷歌大腦):這個團隊的專案包括使用神經網路的影象增強系統、谷歌神經機器翻譯的學習框架以及通過機器學習自動學習獲取新技能的機器人。在Android作業系統的語音識別系統,Google+的照片搜尋和YouTube中的視訊推薦系統中,都用到了Google Brain的技術。
為什麼是蔡元楠?
蔡元楠是 Google Brain 資深工程師, 負責 AI Healthcare (人工智慧的健康醫療應用) 領域,領導開發超大規模資料驅動的全新AI應用與商業模式。在 Google 期間,也曾任職於搜尋廣告系統,智慧語音助手系統,除了技術工作外,還兼任 C++ 語言評審,AI 挑戰賽評委會委員。
在《大規模資料處理設實戰》中,蔡元楠想帶你 培養 Google 工程師精神, 敢於打碎任何權威,從問題出發思考最佳方案。
具體地,他會從兩方面入手: 一是為你介紹矽谷最前沿技術和真實的案例,例如最新的框架層面的前後端分離理念,和批處理流處理統一的思想。 二是帶你剖析技術框架產生的原因和他們解決的問題,讓你在遇到相似的問題的時候,做到心中有數。
為什麼是這個專欄?
我仔細看了下專欄的目錄,六個部分非常值得期待:
第一部分,先會用原汁原味最實際的矽谷一線大廠的案例,向你解釋曾經風靡的 MapReduce 為什麼不能應對最新的技術挑戰。 然後我會從實際的問題出發,從頭開始引導你怎樣從頂層設計一個數據處理框架。
第二部分,同樣是結合實戰案例,講解在資料處理框架的使用和設計中,必需的一些基礎知識。 這些案例緊貼應用,可能就是你的團隊明天會碰到的問題。
第三、第四部分深入拆解了Apache Spark和 Apache Beam。 不僅會用實際的案例教會你如何使用,還要教會你為什麼它們這麼設計,你會發現它們的設計其實大致和第一部分的頂層設計是一致的。 這樣下一次即使這個世界一無所有,你也能構建類似的框架解決一系列問題。
第五部分按 Google T6 級別設計,是帶著程式碼的真槍實彈的架構設計。 毫不誇張地說,能完整掌握第五部分內容,你就能比肩矽谷一線大規模資料處理架構師。
第六部分著重培養你的技術遠見。 因為是否能現在就開始準備應對10年後人類社會的技術挑戰,是你拉開與別人差距的重要一站。
專欄目錄
彩蛋: 留言聊聊 「 工作或學習中你接觸、學習或者使用過哪些大資料處理框架 」, 我會選擇2名同學贈送該專欄閱碼,一個是點贊第1名的同學,另外一個是留言最用心的同學,截止到發文後的24小時。
點選 閱讀原文 ,可試讀或訂閱專欄