深度學習的時代將結束:25 年 16625 篇論文佐證
我們深入研讀了25年來的AI研究論文,結果表明深度學習的時代即將結束。
如今你聽到的關於AI的幾乎所有內容都歸功於深度學習。這類演算法的工作原理是使用統計方法來查詢資料中的模式;事實證明,深度學習在模仿人類技能(比如我們的視覺和聽覺能力)方面功能異常強大,它甚至可以模仿我們推理的能力。這些功能在幕後支援谷歌的搜尋、Facebook的新聞源和Netflix的推薦引擎,並正在徹底改變醫療保健和教育等行業。
不過雖然深度學習憑一己之力將AI推入了公眾視野,但它只是全人類竭力複製自身智慧的歷史長河中的一小朵浪花。它在不到10年的時間裡處於這方面的最前沿。如果你綜觀這個領域的整個歷史,很容易意識到深度學習可能很快行將消失。
華盛頓大學的電腦科學教授、《終極演算法》一書的作者 Pedro Domingos說:“要是有人在2011年撰文稱,深度學習很快消失的言論幾年後會出現在報刊雜誌的頭版,我們可能會這麼說‘哇,你是不是吃錯藥了。’”
他表示,長期以來,不同技術的突然興衰起落已成為AI研究領域的特徵。每隔十年,不同想法之間就會出現一番激烈的競爭。之後,偶爾會出現大反轉,這個圈子中的每個人就某一種特定的想法達成共識。
我們將目光投向最龐大的科學論文開源資料庫之一:arXiv。我們下載了2018年11月18日之前歸屬“AI”部分的所有16625篇論文的摘要,跟蹤分析了這些年來提及的單詞,看看這個領域是如何演變的。
我們通過一番分析,發現了三個主要的趨勢:20世紀90年代末和21世紀初向機器學習轉變,2010年初開始神經網路日漸普及,以及近幾年強化學習大行其道。
有幾個地方需要注意。首先,arXiv的AI部分只追溯到1993年,而“AI”這個術語可以追溯到20世紀50年代,所以這個資料庫只代表該領域發展史的幾個最新章節。其次,每年新增到資料庫中的論文只代表當時該領域所做工作的一小部分。不過,arXiv還是提供了出色的資源,便於彙集一些較大的研究趨勢,並瞭解不同想法的角力。
一種機器學習正規化
我們發現的最大轉變是21世紀初期離基於知識的系統漸行漸遠。這種計算機程式基於這個想法:你可以使用規則來編碼所有的人類知識。研究人員求助於機器學習,這個大類的演算法包括深度學習。
在提及的前100個單詞中,與基於知識的系統相關的那些單詞(比如“邏輯”、“約束”和“規則”)跌勢最猛。而與機器學習有關的那些單詞(比如“資料”、“網路”和“效能”)增勢最猛。
這種巨大變化的原因相當簡單。在80年代,由於試圖在機器中重現常識的雄心勃勃的專案激動人心,基於知識的系統積累了一大批擁躉。但隨著那些專案逐漸展開來,研究人員遇到了一大問題:如果一個系統要做任何有用的事情,需要編寫的規則實在太多了。這增加了成本,並嚴重阻礙了後期的日常工作。
機器學習成為了解決這個問題的答案。這種方法不是要求人們手動編碼成千上萬條規則,而是對機器程式設計,以便從一堆資料中自動提取那些規則。正因為如此,這個領域擯棄了基於知識的系統,改而轉向完善機器學習。
神經網路的繁榮期
在新的機器學習正規化下,並沒有立即出現向深度學習轉變的一幕。相反,正如我們對關鍵術語的分析顯示的那樣,除了深度學習的核心機制神經網路外,研究人員還測試了眾多方法。另外一些流行的技術包括貝葉斯網路、支援向量機和進化演算法,所有這些技術都採用了不同的方法來查詢資料中的模式。
在20世紀90年代和2000年代,所有這些方法之間存在著穩定的競爭。然後在2012年,一項關鍵的突破導致了另一次巨大變化。在旨在推動計算機視覺發展的一年一度的ImageNet比賽期間,一位名叫Geoffrey Hinton的研究人員及其在多倫多大學的同事在影象識別方面獲得了最佳準確度,整整高出10個百分點。
他使用的技術即深度學習引發了一波新的研究:先是在視覺領域內部,然後擴大到另外的領域。隨著越來越多的研究人員開始使用深度學習來獲得令人印象深刻的結果,深度學習的受歡迎程度急劇提高,神經網路隨之走紅。
加強學習方興未艾
分析表明,在深度學習崛起後的幾年裡,AI領域出現了第三次也是最後一次轉變。
除了機器學習中的不同技術外,還有三種不同的型別:監督學習、非監督學習和強化學習。監督學習是最常用的一種,也是迄今為止最實用的應用,它需要為機器饋送經過標記的資料。然而在過去幾年,強化學習在論文摘要中的提及率迅速增加,它模仿通過獎懲機制訓練動物的過程。
這並不是什麼新想法,但幾十年來它其實沒有真正奏效過。Domingos說:“搞監督學習的人會取笑搞強化學習的人。”但是正如深度學習一樣,一個關鍵時刻突然讓強化學習家喻戶曉。
那個時刻發生在2015年10月,當時DeepMind研發的AlphaGo用強化學習經過訓練後,在古老的圍棋比賽中擊敗了世界冠軍。這立即對研究界產生了影響。
下一個十年
我們的分析只不過對AI研究領域的幾種主要想法之間的激烈競爭給出了最近寫照,但它表明了竭力複製智慧這條道路上的變幻莫測。Domingos說:“認識到沒有人知道如何解決這個問題很重要。”
過去25年中使用的許多技術起源於大概同一個時期,即20世紀50年代,因每十年的挑戰和成功而失寵和受寵。比如說,神經網路在60年代達到頂峰,80年代迴光返照、奄奄一息,但隨後因深度學習而重新獲得了目前的人氣。
換句話說,每十年實際上看到不同技術輪流唱主角:50年代末和60年代的神經網路,70年代的各種象徵方法,80年代基於知識的系統,90年代的貝葉斯網路,2000年代的支援向量機,以及2010年代的神經網路。
Domingos表示,20世紀20年代應該沒什麼不同,這意味著深度學習時代可能很快就會結束。但研究界對於接下來會發生什麼莫衷一是、眾說紛紜——到底一種舊技術重新獲得青睞,還是這個領域會創造一種全新的正規化。
Domingos說:“如果你回答了這個問題,我想為這個答案申請專利。”