[譯] 我們其實還不能理解機器學習

機器學習資料庫 · 發表 2019-03-25 11:44:47

摘要：作者： Benedict Evans 爆炸式地發展了四五年後，機器學習而今已逐漸成為人們耳熟能詳的概念。機器學習的發展，不僅僅體現在相關創業公司不斷湧現，以及科技公司的自身重建（許多大公司都在推進相關的專案）；更為顯著的意義在於，它可能是下一波工業革命的核心。機器...

作者： Benedict Evans

爆炸式地發展了四五年後，機器學習而今已逐漸成為人們耳熟能詳的概念。

機器學習的發展，不僅僅體現在相關創業公司不斷湧現，以及科技公司的自身重建（許多大公司都在推進相關的專案）；更為顯著的意義在於，它可能是下一波工業革命的核心。

機器學習中的一個重要組成部分是神經網路，也就是有規律的模式和資料。藉助機器學習，我們可以在資料中找到非直接的、隱含的資料結構。

機器學習解決了以前“人類能辦到但計算機辦不到”的一類問題——或者更準確地說：“人們難以向計算機描述的問題”。

雖然，一些很酷的機器學習語音和視訊應用樣本已經逐步浮出水面；

但是，我們似乎還沒有徹底理解機器學習。比如：它對科技公司以及傳統行業意味著什麼，人們該如何思考它能夠帶來的創新，以及它可以解決哪些重要問題？

“人工智慧”一詞其實不太能幫助我們理解機器學習的內涵，而且多數人一聽到這個詞就懵了。

一旦我們說“AI”，就好像人類進化的轉折點出現了，我們也瞬間變成了猿猴，衝著我們不能理解的未來尖叫，揮舞著我們的拳頭。

實際上，目前市面上關於機器學習的討論並不能幫助我們真正理解機器學習。例如：

資料是新石油
谷歌和中國（或Facebook，或亞馬遜，或BAT）擁有所有資料
AI將掠奪走人類的工作
人工智慧

而更有用的討論方向可能是：

自動化
賦能技術層
關係資料庫（SQL）

為何談到關係資料庫？因為它是一個新的基礎支援層，改變了計算機可以做的事情。

在關係資料庫出現之前——也就是20世紀70年代末之前，如果希望資料庫算出特定主題的內容，例如“購買此產品並居住在這個城市的所有客戶”，通常需要一個自定義的專案。

而由於資料庫的結構並不適用於任意交叉的查詢，如果想問一個問題，就需要建立一個專門的資料庫。

可見，資料庫是一種記錄儲存系統。而關係資料庫，則將它們轉變為商業智慧系統。

關係資料庫在很大程度上改變了資料庫的使用方式，從而建立了新的範例和上億美元市值公司。

關係資料庫為我們帶來了甲骨文（NYSE：ORCL），也給了我們SAP（NYSE:SAP；全球最大的企業管理和協同化電子商務解決方案供應商）。

SAP及其同行，為我們提供了全球即時供應鏈，從而使得蘋果（NASDAQ:AAPL）和星巴克（NASDAQ:SBUX）的誕生成為了可能。

到了20世紀90年代，幾乎所有的企業軟體都是關係資料庫，比如PeopleSoft（甲骨文旗下一款協同合作企業軟體）、Salesforce（一款客戶關係管理軟體）以及SuccessFactors（一款人力資源管理軟體）等幾十種軟體都執行在關係型資料庫上。

顯然，事實已經證明，人們在看到Salesforce或SuccessFactors時，不會再說“因為甲骨文擁有所有的資料庫，所以其他模式永遠不會奏效”。

相反，關係資料庫已經成為了全球企業管理領域創造更多可能的中堅力量。而這，正是如今理解機器學習的一個很好的方式。

機器學習讓我們改變了使用計算機做事情的方式，而這將為企業創造出更多不同的產品。最終，多數的產品將來都將會應用到機器學習。

這裡一個重要的點是，雖然關係資料庫具有規模效應，卻也有贏家通吃的問題。

即便兩家公司共用一個數據庫，卻不能協同使得一個數據庫變得更好，如果卡特彼勒(NYSE:CAT)購買和Safeway(北美最大的食品和藥品零售商之一)相同的資料庫，後者的資料庫也不會變得更好。

機器學習就是這樣的：關鍵在於資料，但資料對特定應用程式具有高度特異性。

更多的手寫資料將使手寫識別器變得更好，更多的燃氣輪機資料將使一個系統更好地預測燃氣輪機故障，但這二者並不能互相提升——資料具有不可替代性。

這就是在理解機器學習時最常見的誤解：人們錯誤地認為機器學習是一種單一的、通用的東西，認為谷歌(NASDAQ:GOOG)或微軟(NASDAQ:MSFT)各自建立了一套機器學習系統，或者IBM(NYSE:IBM)有一個名為“Watson”的機器學習機器。

而這也一直是在理解自動化上的誤區：隨著每一波自動化，我們想象我們正在創造的是擬人化的機器或是具有廣義智慧的機器。

比如：在二十世紀二十年代和三十年代，我們想象鋼鐵工人拿著錘子在工廠裡走來走去的樣子，在20世紀50年代，我們想象著人形機器人在廚房裡走動做家務。然而最後，我們沒有得到機器人僕人，我們創造出了洗衣機。

洗衣機是機器人，但它們並不“智慧”。它們不知道什麼是水或衣服。此外，即使僅僅在洗滌方面，它們也不是通用的——你不能把餐具放在洗衣機裡，也不能把衣服放在洗碗機裡。

洗衣機只是另一種自動化，在概念上與傳送帶或取放機器沒有什麼不同。

同樣，儘管機器學習能夠解決計算機之前無法解決的問題，但這其中的問題並不是一概而論的，而是每個問題都需要不同的方案、不同的資料以及不同的公司來解決。它們中的每一個都是自動化的一部分，都是一臺洗衣機。

因此，理解機器學習的一個挑戰是：我們不但要理解其中的數學方程，也要擁有對AI的幻想。

機器學習不會成為一種先知型的機器人，但將其僅僅視為資料統計工具也不妥。大家都說說“機器學習可以讓你提出這些新問題”，但到底是什麼問題卻不明確。

我們可以做出很棒的語音識別和影象識別系統，但問題是，普通公司會拿這些系統做些什麼呢？

正如美國一家大型媒體公司的團隊不久前對我說的那樣：我知道我們可以使用機器學習來編排十年間採訪運動員的視訊，但為什麼要這樣做？

那麼，對於企業而言，機器學習對於它們的真正意義是什麼？我認為有兩套思考方法可以採用。首先是根據資料型別和問題型別的方式進行思考：

1. 機器學習可以作為一種分析或優化技術，對於已有的資料及問題提供更好的結果。例如， Instacart （美國一家線上雜貨配送服務商）建立了一個系統，通過雜貨店優化個人購物者的路線選取，並實現了提高50％的優化（這是由三位工程師使用Google的開源工具Keras和Tensorflow構建的）。
 
2. 機器學習可以讓我們對已有資料提出新的問題。例如，正在尋找案件線索的律師，可能會搜尋帶有“憤怒”“焦慮”等情感類關鍵詞的電子郵件，或異常的發信規律或文件叢集，以及進行更多的關鍵字搜尋，
 
3. 機器學習開闢了新的資料型別進行分析。從前計算機無法真正讀取音訊，影象或視訊，但是現在，這都將變為可能。

在這一點上，我發現成像是最令人興奮的：雖然只要我們有計算機，計算機就可以處理文字和數字，但在以前，影象（和視訊）大部分是不能被處理的；現在有了機器學習，計算機將不但能夠“看到”影象，並且能夠理解其中含義。

這意味著影象感測器（和麥克風）將成為一種全新的輸入機制，像一種功能強大且靈活的感測器，可以生成機器可讀的資料流。這些都可以歸結為的計算機視覺問題。

我最近遇到了一家為汽車行業供應座椅的公司，該公司已將神經網路放在廉價的DSP（數字訊號處理）晶片上，配備便宜的智慧手機影象感測器，以檢測織物是否有皺紋。

我們更應該期待各種類似的用途，也就是機器學習在非常細微領域，例如微型小部件以及單一件事件上的應用。

而將機器學習描述為“人工智慧”是沒有用的，它更多的是把以前無法實現自動化的任務自動化。

這種自動化能力就是思考機器學習的第二條思路。發現紡織物是否有皺紋不需要20年的經驗——它真的只需要哺乳動物的大腦。

事實上，我的一位同事建議，機器學習將能夠做任何你可以訓練狗做的事情——這也是一種思考AI的不錯的方法：狗究竟學到了什麼？訓練資料中有什麼？你怎麼問？但這也不是全部，因為狗確實有智商和常識，不像神經網路。

五年前，如果你給計算機一堆照片，它除了按尺寸排序外，還做不了別的。一個十歲的孩子可以把它們分成幾個男人和一個女人，一個十五歲的孩子把它們分成酷和不酷的，一個實習生可以指出最有意思的那張。

今天，藉助機器學習，計算機將匹配十歲孩子的能力，也許是十五歲的。它可能永遠不會達到實習生的水平。但是，如果你有一百萬個十五歲的孩子來檢視你的資料，你會怎麼做？會發現什麼，會看到什麼影象，會檢查哪些檔案傳輸或信用卡付款？

也就是說，機器學習不需要匹配專家或數十年的經驗判斷。我們需要“聽取所有電話並找到帶有憤怒情緒的電話”。“閱讀所有電子郵件，找到帶有焦慮情緒的電子郵件”。“看看十萬張照片，找到那些很酷（或至少很奇怪）的人。”

從某種意義上說，這就是自動化。

Excel沒有給我們人工會計師，Photoshop和Indesign沒有給我們人工圖形設計師，而且蒸汽機確實沒有給我們人造馬。相反，我們是在成規模地逐一攻克每一個小問題。

上面這個比方的意思是，機器學習不僅可以找到我們已經認識到的東西，而且可以找到人類還沒有識別的東西，或找到那些十歲的孩子辨別不出的模式或推論。

這就好像是AlphaGo。

AlphaGo不像電腦一樣下國際象棋，也就是按順序分析每一個可能的決策步驟；與之相反，AlphaGo被編入了規則，需要自己制定戰略，AlphaGo通過和自己下棋來學習，而這數量是人類在好幾生中下棋的數量。

2018世界人工智慧圍棋大賽柯潔VS AlphaGo

也就是說，這不是一千名速度非常快的實習生，而是機器學習在看到第三百萬張影象時，可以識別出一種沒有被發現的模式。

那麼，哪些領域足夠細化，讓我們可以告訴機器學習一套系統規則，而且足夠深入，以至於能夠看到人類所看不到的資料，而這會帶來意想不到的結果？

我花了很多時間與大公司見面並討論他們的技術需求，它們確實有一些需求通過機器學習就能解決。比如它們有很多明顯的分析和優化問題，以及很多影象識別問題或音訊分析問題。

同樣，我們談論自動駕駛汽車和混合現實的唯一原因，是因為機器學習能夠讓它們變為實現。

機器學習為汽車提供了一種途徑，讓它們瞭解周圍的事物以及人類駕駛員可能會做採取的行動，並提供混合現實一種解決方案，明確我應該看到的事物，就像一副可以顯示任何東西的眼鏡。

但在我們談到面料皺紋或情緒分析之後，這些公司往往會坐下來問“好吧，還有什麼？”這會帶來什麼其他的東西，以及它會發現什麼未知的東西？

得到這些問題的答案，我們可能至少還需要十到十五年時間，直到那時我們或能真正透徹理解了機器學習。

【往期高命中報告】點選圖片即可閱讀

[譯] 我們其實還不能理解機器學習

您可能也會喜歡…