隨機連線神經網路效能超過人工設計!何愷明等人釋出新研究
在該研究中,來自 FAIR 的研究人員謝賽寧、Alexander Kirillov 、Ross Girshick 與何愷明通過隨機神經網路連線的方式探索了比此前神經架構搜尋更為廣泛的連線形式,並實現了很好的效果。
今天我們所說的深度學習是從認知科學的連線主義方法發展而來的,這一正規化反映了一種假設,即計算網路如何連線對構建智慧機器至關重要。與這一觀點相互呼應,計算機視覺領域的最新模型也由鏈式連線轉向更加精細的連線方式,如 ResNet、DenseNet,由於其連線方式更加精細,這些模型在很大程度上是有效的。
神經架構搜尋(NAS)的出現推動了這一趨勢的發展,已經成為聯合搜尋連線方式和操作的有前景的研究方向。在聚焦搜尋的同時,NAS 方法隱式地依賴於一種叫做網路生成器(network generator)的重要(但很大程度上被忽視的)元件。
NAS 網路生成器定義了一系列可能的連線方式,網路根據可學習的概率分佈從網路生成器中進行取樣。然而,和 ResNet 和 DenseNet 中的連線方式一樣,NAS 網路生成器是手工設計的,支援的連線方式空間被限制在所有可能圖的一個小小的子集中。從這一角度出發,我們會問:如果我們放鬆這一限制並設計新的網路生成器會怎麼樣?
謝賽寧、何愷明等研究者通過從隨機網路生成器中取樣的隨機連線神經網路來探索這個問題,生成器中的生成結果由人類設計的隨機過程定義。為了減少研究者的偏好對生成器造成的影響,他們使用了圖論中三組經典的隨機圖模型:Erdos-Renyi(ER)、Barabasi-Albert(BA)和 Watts-Strogatz(WS)模型。為了定義完整的網路,研究者將隨機圖轉換成有向無環圖(DAG),並應用了一個從節點到其功能角色(如同一型別的卷積)的簡單對映。
結果出人意料:這些隨機生成器的幾個變體在 ImageNet 上產生了準確率頗具競爭力的網路。使用 WS 模型的最佳生成器生成的多個網路效能優於或可媲美全手工設計的同類網路或通過各種神經架構搜尋方法找到的網路。
研究者還觀察到,同一生成器生成的不同隨機網路的準確率方差較低,但不同生成器生成的網路準確率差距可能較大。這些觀察結果表明,網路生成器的設計非常重要。
研究者注意到,這些隨機連線網路並非「prior free」,即使他們是隨機的。實際上,許多強先驗(strong prior)被隱式地設計到生成器中,包括選擇特定的規則和分佈來控制連線或不連線某些節點的概率。每個隨機圖模型都具有一定的概率行為,使得采樣的圖可能具有某些屬性(例如,WS 是高度聚集的)。生成器的設計最終決定了網路上的概率分佈,因此這些網路往往具有某些特性。生成器的設計是先驗的基礎,因此不應被忽視。
在本文中,研究者探索了與 NAS 隨機搜尋當前研究 [23, 41] 不同的方向。那些研究表明,隨機搜尋在「NAS 搜尋空間」(即該研究所說的「NAS 網路生成器」)中頗具競爭力。
他們的研究結果表明,NAS 生成器設計所產生的先驗往往可以生成好的模型,這與本研究的觀察結果相似。與之前的工作相比,本文研究者的工作超越了現有 NAS 生成器的設計,探索了不同的隨機生成器設計。
最後,本研究表明,從設計單個網路到設計網路生成器的過渡是可能實現的,類似於從設計特徵到設計學習特徵的網路的過渡。研究者建議設計新的網路生成器,生成用於搜尋的新模型集合,而不是聚焦於使用固定生成器進行搜尋。
(NAS 等中)網路生成器設計的重要性還表明,機器學習還沒有實現自動化(參見 AutoML [20])——即基本的人類設計和先驗從網路工程轉向了網路生成器工程。
隨機連線神經網路
對 NAS 的分析表明,該網路生成器是手動設計的,且根據人類知識對先驗進行編碼。網路生成器的設計很可能起著很大的作用,這樣的話,當前的方法還無法達到「AutoML」,而且仍需要大量的人力。
為了研究網路生成器設計的重要性,只對同一 NAS 生成器比較不同的(複雜或隨機的)優化器是不夠的;有必要研究與 NAS 生成器非常不同的新的網路生成器。
為此,研究者開始利用隨機連線神經網路。即,他們將定義網路生成器,該生成器生成帶有隨機圖的網路,服從於不同的人類特定先驗。為了最小化人類偏見(本文研究者對先驗的偏見),研究者在研究中使用了三種經典的隨機圖模型。其生成隨機連線網路的方法包含以下概念:
邊緣操作。假設圖是有向的,研究者定義邊緣是資料流,即有向邊緣將資料(張量)從一個節點發送到另一個節點。
節點操作。有向圖中的節點可能有一些輸入邊緣和一些輸出邊緣。
圖 2. 隨機圖節點設計。這是一個節點(藍色),有三個輸入端和 4 個輸出端,通過可學習的正權重 w_0、w_1、w_2 的加權來完成聚合。轉換器是 ReLU-convolution-BN 三元組,可簡單視作卷積。轉換後的資料作為 4 份副本傳送出去。
圖 3. 在隨機圖形生成器上的比較:ER、BA 和 WS 在小計算量條件下的結果。每個指標代表在 P、M 或(K、P)引數設定下的生成器的結果(x 軸)。縱軸為 ImageNet Top-1 準確率,5 個隨機網路生成的結果顯示為標準均值(std)。在最右側,WS(K、P=0)沒有隨機性。
圖 4. ER、BA 和 WS 生成隨機影象的視覺化。每個圖表代表由指定生成器取樣的一個隨機圖形例項。生成器即為圖 3 中的配置。每個計算圖的節點數為 N=32。紅色/藍色節點代表輸入/輸出節點,在一些情況下,會加入額外的唯一輸入/輸出節點(未顯示)。
論文:Exploring Randomly Wired Neural Networks for Image Recognition
論文地址:https://arxiv.org/abs/1904.01569
摘要:用於影象識別的神經網路已經通過人工設計,從簡單的鏈狀模型發展到具有複雜路徑的結構。ResNet 和 DenseNet 的成功很大程度上歸功於它們的創新性線路設計。近日,神經架構搜尋(NAS)的研究正在拓展連線和操作方式的聯合優化,然而其可能的佈線空間仍然受到約束——它們在搜尋中仍受到手動設計的驅動。
在本論文中,我們通過隨機神經網路連線的方式探索了更為廣泛的連線形式。首先,我們定義了一個隨機網路生成器的概念,它封裝了整個網路的生成過程。這一封裝提供了 NAS 和隨機連線網路的統一檢視。然後,我們使用三個經典隨機圖模型為網路生成隨機連線圖。結果令人驚訝:這些隨機生成的網路變體在 ImageNet 影象識別基準測試中有著非常具有競爭力的準確率。這些結果表明,相比於小搜尋空間,專注於設計更好的網路生成器或許可以帶來更大的技術突破。
圖 1. 由經典的 Watts_Strogatz(WS)生成的隨機連線神經網路模型:在和 ResNet-50 使用相近算力的條件下,這三個隨機生成的網路在 ImageNet 上實現了(從左至右)79.1%、79.1%、79.0% 的分類準確率,ResNet 的準確率為 77.1%。
PyTorch 實現
FAIR 提出的這些隨機連線神經網路看起來十分魔性,論文一經提交就引起了人們的廣泛關注,很快就有了實現——來自 MINDsLab 的 Park Seung Won 試圖在 PyTorch 上實現它,並重現研究中的一些結果:
實現地址:https://github.com/seungwonpark/RandWireNN