大規模學習該如何權衡得失？解讀 NeurIPS 2018 時間檢驗獎獲獎論文

資料探勘 · 發表 2018-12-16 14:41:34

摘要： AI 前線導讀：機器學習進展飛速，有時甚至覺得，超過 2 年的想法或演算法就過時了，或者就被其他更好的東西所取代。然而有時候，有些舊想法，即使科學界的大部分人已經遠離它們，它們仍然很重要。這通常是個上下文的問題：一個在特定的上下文中看起來已經窮途末路的想法也許在另一個上下文中變得極其成功。在...

AI 前線導讀：機器學習進展飛速，有時甚至覺得，超過 2 年的想法或演算法就過時了，或者就被其他更好的東西所取代。然而有時候，有些舊想法，即使科學界的大部分人已經遠離它們，它們仍然很重要。這通常是個上下文的問題：一個在特定的上下文中看起來已經窮途末路的想法也許在另一個上下文中變得極其成功。在深度學習的特定情況下，可用資料和計算能力的增長重新引起了人們對該領域的興趣，並顯著地影響了研究方向。

更多幹貨內容請關注微信公眾號“AI 前線”（ID：ai-front）

NIPS 2007 年的論文ofollow,noindex">《大規模學習的權衡（The Trade-Off of Large Scale Learning）》是由 Léon Bottou（當時在 NEC 實驗室工作，現在在 Facebook AI 研究中心工作）和 Olivier Bousquet（就職於蘇黎世谷歌 AI 研究中心）共同完成的，該論文是這種現象的絕佳例項。作為 NeurIPS 2018 經典論文獎的獲獎論文，這項開創性的工作研究了機器學習中的資料和計算之間的相互作用。研究結果顯示，即使受到計算能力的限制，仍然可以使用大型資料集，在多個獨立訓練樣本上進行少量的計算比在資料的子集上進行大量的計算更有效率。這證明了隨機梯度下降法這個舊演算法的強大，如今，幾乎所有的深度學習應用都使用了該演算法。本文是 AI 前線第 62 篇論文導讀，我們將帶大家一起回顧這篇經典論文。

優化和擴充套件挑戰

很多機器學習演算法都可以看成是以下兩個要素的組合：

模型：一個可以用於擬合數據的函式集合。
優化演算法：指明如何在該函式集合中找到最佳函式。

回望 90 年代，機器學習中使用的資料集比如今使用的要小很多，儘管人工神經網路已經取得一些成功，但它們仍然被認為難以訓練。在 2000 年初，隨著“核機器（Kernel Machines ）”（特別是SVM ）的引入，神經網路逐漸落伍。同時，大家的注意力從一直用於訓練神經網路的優化演算法（隨機梯度下降法）轉移到了用於核機器的那些演算法上（quadratic programming，二次規劃）。一個重要的區別是，在前一種情況下，一次使用一個訓練樣本執行梯度步驟（這被稱為“隨機”），而在後一種情況下，每次迭代時都會用到所有訓練樣本（這被稱為“批處理”）。

隨著訓練集規模的增長，優化演算法處理大量資料的效率成為瓶頸。比如，在二次規劃的情況下，執行時間至少是樣本數量的二次方。換句話說，如果訓練集的規模翻倍，那麼訓練時間至少要增加 4 倍。因此，為了把這些演算法擴充套件到更大的訓練集，人們花費了大量的精力（請參看大規模核機器）。

具有神經網路訓練經驗的人都知道，隨機梯度下降法相對更容易擴充套件到大型資料集，但是，遺憾的是，它的收斂速度非常慢（要進行大量迭代才能達到與批處理演算法的精度），因此，還不清楚這是否是擴充套件問題的解決方案。

隨機演算法擴充套件性更好

事實上，在機器學習的背景中，優化成本函式所需的迭代次數不是主要問題：把模型優化至完美是沒有意義的，因為基本上都會“過擬合”訓練資料。那麼，為什麼不減少優化模型所需的計算量，而把精力投入到處理更多的資料呢？

Léon 和 Olivier 的工作是對該現象的正式研究：他們考慮訪問大量的資料，並假設限制因素是計算，研究結果表明，最好對每個獨立訓練樣本進行最少量的計算（因而可以處理更多樣本），而不是對較少量的資料進行大量的計算。

在這個過程中，他們還證明，在各種可能的優化演算法中，隨機梯度下降法是最佳演算法。這已被很多實驗所證實，並引起了人們對線上優化演算法的興趣。如今，線上優化演算法已廣泛應用在機器學習中。

未解之謎

在隨後的幾年中，隨機梯度下降法在凸優化和非凸優化（特別適合於深度學習）場景中發展出了許多變體。現在最常見的變體是所謂的“小批量（mini-batch）”隨機梯度下降法，每次迭代只考慮少量的訓練樣本（大概是 10 到 100 個之間），在訓練集上執行多遍，並利用一些聰明的技巧來適當地擴充套件梯度。大多數機器學習庫提供這類演算法的預設實現，它被認為是深度學習的支柱之一。

儘管該分析為理解這個演算法的特性提供了堅實的基礎，但是，深度學習令人難忘甚至有時令人驚訝的成功不斷地向科學界提出更多的問題。具體來說，儘管該演算法在泛化深度網路特性中的作用已經被反覆證明，但我們仍然未能充分理解。這意味著，還有很多有趣的問題等待我們探索，這些問題有助於我們更好地理解目前在使用的演算法，並在未來開發出更高效的演算法。

10 年前，Léon 和 Olivier 在合作中提出的觀點顯著推動了現如今已成為機器學習系統主力、造福我們日常生活的演算法的發展。我們衷心祝賀兩位作者獲得這一當之無愧的獎項。

原文連結：

https://ai.googleblog.com/2018/12/the-neurips-2018-test-of-time-award.html

活動推薦

說到人工智慧的應用，你還只停留在圍棋和自動駕駛？現階段的人工智慧是否在前一代成果的基礎上實現突圍？12 月 20 日上午，AICon 人工智慧與機器學習解決方案專場，將由騰訊技術大咖帶隊，從智慧問答演算法原理、圖資料庫引擎、高效文字標註工具的實現等維度進行研討與展示，與大家聊聊 AI 新探索與新應用。報名連結：http://t.cn/EUYzWd5