如何找到全域性最小值?先讓區域性極小值消失吧
通過新增一個神經元,就可以讓一種二分類深度神經網路的損失函式區域性極小值消失。早在去年 5 月就有人發現了這個有趣的結果,MIT 將其進一步推廣到了更廣泛的損失函式類。
目前,深度神經網路在計算機視覺、機器學習和人工智慧等領域取得了巨大的實際成功。然而,從理論上對深度神經網路的理解相對於其在經驗上的成功來說是較為缺乏的。在理論上,理解深度神經網路的一個主要難點是用於訓練網路的目標函式的非凸性以及高維度。由於非凸性和高維度,能否保證深度神經網路在訓練過後具有理想的性質,而不是陷入一個隨機的糟糕的區域性極小值點附近,往往還不清楚。實際上,尋找一個通用的非凸函式(Murty & Kabadi, 1987)以及用於訓練特定種類神經網路的非凸目標函式(Blum & Rivest, 1992)的全域性極小值是 NP-Hard 的問題,這引起了研究人員對高維問題的關注(Kawaguchi et al., 2015)。在過去,這類理論問題被認為是人們偏向於選擇只需要進行凸優化的經典機器學習模型(無論帶不帶有核方法)的原因之一。儘管深度神經網路近來取得了一系列的成功,但始終繞不開一個問題:能否在理論上保證深度神經網路避開糟糕的 區域性極小值 點?
近來,有許多研究分析了神經網路的訓練中目標函式的變化情況和區域性極小值。一些研究在假設深度神經網路被顯著簡化(Choromanska et al.,2015;Kawaguchi,2016;Hardt & Ma,2017)和顯著過引數化(Nguyen & Hein,2017;2018)的條件下取得了積極的結果。對於僅僅包含一個隱藏層的淺層網路,已經取得了許多積極的結果,但往往帶有很強的假設,例如,需要使用顯著的過引數化處理、簡化處理和高斯化的輸入(Andoni et al., 2014; Sedghi & Anandkumar, 2014; Soltanolkotabi, 2017; Brutzkus & Globerson, 2017; Ge et al., 2017; Soudry & Hoffer, 2017; Goel & Klivans, 2017; Zhong et al., 2017; Li & Yuan, 2017; Du & Lee, 2018)。
除了強假設之外,深度神經網路中漸漸出現了兩種明顯的積極結果。首先,某些深度神經網路在損失處於所有區域性極小值點時的效能已經被證明並不亞於相應的經典機器學習模型在全域性最小值點的效能(Shamir, 2018; Kawaguchi & Bengio, 2018; Kawaguchi et al., 2018);通過不可忽略的殘差表徵(Kawaguchi & Bengio, 2018)以及對網路深度和寬度的增加,即使並沒有經過顯著的過引數化處理,也能夠保證模型效能可以被進一步提升。其次,研究表明,增加一個神經元可以為一個帶有特定型別的平滑的鉸鏈損失(hinge loss)函式(Liang et al., 2018)的二分類器消除所有的次優區域性極小值(即不是全域性最小值的區域性極小值)。第二種型別的結果已經被多篇不同的論文提及(Nguyen et al., 2018; Wang et al., 2018; Zhang et al., 2018)。然而,由於假設二分類問題帶有特定的損失函式,目前這種技術還不適用於許多常見的深度學習任務,而這也正是該技術的一個主要的侷限性(如 Fessler, 2018 的論文所述)。
在本文中,作者證明了,在沒有任何強假設的情況下,對於帶有任意損失函式的多分類、二分類以及迴歸任務,為每個輸出單元增加一個神經元可以消除所有次優區域性極小值。據作者所知,這是第一個在沒有任何典型的未滿足的假設的情況下,能夠保證許多常見的深度學習任務沒有次優區域性極小值的結果。此外,作者還展示了用這種方法消除次優區域性極小值的侷限性。
論文:Elimination of All Bad Local Minima in Deep Learning
論文地址: https://arxiv.org/abs/1901.00279
摘要:本文從理論上證明了,對於帶有一個任意的損失函式的多分類、二分類以及迴歸問題,我們可以通過向任意深度神經網路的每個輸出單元新增一個神經元,消除所有的次優區域性極小值。在任意加入了神經元的深度神經網路的每一個區域性極小值處,可以保證原神經網路(不增加神經元)的引數設定可以使原神經網路處於全域性極小值。本文證明了,新加入的神經元的作用效果可以自動地在每個區域性極小值消失(從而不影響神經網路的輸出)。與先有工作中的許多相關結果不同,我們的理論結果直接適用於常見的深度學習任務,因為這些結果僅僅依賴於在常見任務中自然成立的假設。此外,我們還提供了額外的理論結果和幾個例子,討論了以這種方式消除次優區域性極小值的幾個限制。