MIT CSAIL 彩票假想:大幅縮小神經網路規模但不犧牲預測精度,將對遷移學習產生影響
近日,美國麻省理工學院電腦科學與人工智慧實驗室(MIT CSAIL)發表了一篇名為《彩票假想:尋找稀疏、可訓練的神經網路》( The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks )的論文,詳細解析瞭如何在保證精準度不打折扣的前提下縮小神經網路規模。經試驗,這種方法最高可以將模型大小縮小 10 倍,甚至訓練速度提高 3.5 倍,預測精度提高 3.5%。
深度神經網路是一種仿生物神經元的數學函式層,作為通用型別的 AI 架構,它們能夠執行從自然語言處理到計算機視覺的各類任務。但這並不意味著它們無所不能。深度神經網路通常需要非常龐大和合適的大型語料庫,即使是用最昂貴的專用硬體,也需要數天才能進行訓練。
但這種情況可能將有所改變。麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的科學家在一項新研究《彩票假想:尋找稀疏、可訓練的神經網路”》中表示,深度神經網路包含的子網路可以縮小 10 倍,同時訓練之後預測精度保持同等水平,甚至在某些情況下比原始網路速度更快。
這項成果將在新奧爾良舉行的國際學習代表大會(ICLR)上發表,從大約 1,600 份提交論文中脫穎而出,被評為該會議兩篇最佳論文之一。
“首先,如果不想初始網路那麼大,為什麼不能在一開始就建立一個大小適中的網路呢?”博士生和論文合著者 Jonathan Frankle 在一份宣告中說。“通過神經網路,你可以對這個龐大的結構進行隨機初始化,在經過對大量資料進行訓練之後,它神奇地起作用了。這種大型結構就像你買了一大包彩票,但其中只有少量門票實際上會讓你發財。然而,我們仍然需要一種技術,在不知道中獎號碼之前找到中獎的幸運兒。“
規模縮小 10 倍,速度提高 3.5 倍,精度提高 3.5%
這裡,我們將彩票假設應用於 CIFAR10 上的卷積網路,增加了學習問題的複雜性和網路的規模。我們考慮使用圖 2 中的 Conv-2,Conv-4 和 Conv-6 架構,它們是 VGG 家族的縮小變體(Simonyan&Zisserman,2014)。網路有兩個、四個或六個卷積層,後面是兩個完全連線的層;每兩個卷積層發生最大池化。這些網路範圍廣泛,包括將近到完全連線到傳統卷積網路的型別,Conv-2 中卷積層的引數不到 1%,Conv-6.3 中的引數近三分之二。
尋找中獎彩票。上圖中的實線表示來自每層修剪速率的 Conv-2(藍色),Conv-4(橙色)和 Conv-6(綠色)的迭代彩票實驗。
Lenet:隨著網路被修剪,與原始網路相比,它學得更快,測試準確度也提高了。在這種情況下,結果更加明顯。中獎彩票驗證損失率達到最低,Conv-2 快 3.5 倍(Pm = 8.8%),Conv-4 快 3.5 倍(Pm = 9.2%),Conv-6 為 2.5x(Pm = 15.1%)。在精度度上,Conv-2 最高提高了 3.4%(Pm = 4.6%),Conv-4 提高 3.5%(Pm = 11.1%),Conv-6 提高 3.3%(Pm = 26.4%)。當 Pm> 2%時,所有三個網路都保持在其原始平均測試精度之上。
研究人員使用的方法涉及消除功能(或神經元)之間不必要的連線,使其適應低功率裝置,這一過程通常稱為修剪。(他們特別選擇了具有最低“權重”的連線,這表明它們的重要性最低。)接下來,他們在沒有修剪連線的情況下訓練網路並重置權重,在修剪其他連線後,他們確定了可以在不影響模型預測能力的情況下刪除多少連線。
在不同條件、不同網路上重複該過程數萬次之後,報告顯示他們的 AI 模型始終比其完全連線的母網路的規模小 10%到 20%。
“令人驚訝的是,重新設定一個表現良好的網路通常會帶來更好的結果,”共同作者兼助理教授 Michael Carbin 說。“這表明,第一次的成果都不是最完美的,模型學會自我改進的空間還很大。”
Carbin 和 Frankle 指出,他們只考慮以較小資料集為中心和以視覺為中心的分類任務,未來,他們將探討為什麼某些子網特別擅長學習以及快速發現這些子網的方法。另外,他們認為這個結果可能對遷移學習產生影響,遷移學習技術可以訓練針對某一任務的網路對另其他任務同樣適用。