AI熱潮的關鍵：深度學習不止深度神經網路

深度學習神經網路 · 發表 2018-11-16 14:23:35

摘要：【編者按】作為本輪AI的關鍵技術，深度學習不單只是深度神經網路模型本身。事實上，深度神經網路的發展痛點頻頻，包括穩定性和對裝置的依賴性，以及除錯複雜度困難等等。事實上，迴歸到深度學習的本質問題，前企學研界還有很多探索深度學習新的可能性。本文原載於21世紀經...

【編者按】作為本輪AI的關鍵技術，深度學習不單只是深度神經網路模型本身。事實上，深度神經網路的發展痛點頻頻，包括穩定性和對裝置的依賴性，以及除錯複雜度困難等等。事實上，迴歸到 深度學習的本質問題，前企學研界還有很多探索深度學習新的可能性。

本文原載於21世紀經濟報，經億歐網編輯，以供業內人士參考。

作為本輪人工智慧熱潮的關鍵技術，機器學習尤其是深度學習受到了熱捧。一時間，人人嘴上掛著深度學習、神經網路等詞彙，似乎不談這一話題，便與智慧時代脫節。

然而，無論開發者或科技企業，對深度學習恐怕存在一定誤解。“如果問一下‘什麼是深度學習’，絕大多數人的答案都會是：深度學習就是深度神經網路，甚至認為‘深度學習’就是‘深度神經網路’的同義詞。”在2018英特爾人工智慧大會上，南京大學計算機系主任、人工智慧學院院長周志華直言現狀。

這一觀念其實是片面的。事實上，當前深度學習主流的深度神經網路模型本身，也存在著諸多問題。 “吃資料，吃機器，對開發者門檻要求高。”當談及當前模型痛點時，一位深度學習領域相關開發者向記者直言。另一位開發者則告訴記者，深度神經網路模型的效果穩定性也可能不如預期。

“Kaggle競賽中有各種各樣的任務，但在影象、視訊、語音之外的很多工上，比如訂機票、訂旅館之類，還是傳統機器學習技術(如隨機森林或XGBoost)表現更好，尤其是涉及符號建模、離散建模、混合建模等問題。”周志華表示，“機器學習界早就很清楚‘沒有免費的午餐’，也即任何一個模型可能只適用於一部分的任務，而另外一些任務是不適用的。”

這也就意味著，除深度神經網路模型之外，當前企學研界還有必要探索深度學習新的可能性。

痛點頻頻

深度學習是機器學習的一個技術分支。與機器學習其他技術流派所區別的是，當前以深度神經網路模型為代表的深度學習模型演算法中，擁有許多層次，從而構成“深度”。

與傳統機器學習方法相比，深度學習具有其優勢。“如果以橫軸為資料量，縱軸為模型有效性來看的話，傳統機器學習模型隨著資料量的增長而效果趨於平緩，深度神經網路模型則隨著資料增長形成更高的有效性。”英特爾高階首席工程師、大資料技術全球 CTO 戴金權告訴記者。

之所以模型層級或說“深度”能夠在近年來取得突破，源於神經網路中基本計算單元啟用函式的連續可微性，導致梯度更加易於計算，而基於對梯度的調整，便可使用 BP 演算法逐層訓練出整個模型。

“ 2006 年以前，人們不知道怎麼訓練出 5 層以上的神經網路，根本原因就是層數高了之後，使用 BP 演算法的梯度就會消失，無法繼續學習。”周志華介紹道，“後來 Geoffrey Hinton 做了很重要的工作，通過逐層訓練來緩解梯度消失，才使得深層模型能夠被訓練出來。”

然而，正是因為深度神經網路模型是一個層級多、引數多的巨大系統，因此便存在海量的調參需求與相當的調參計算。“甚至有些技術工程師一天下來，其他的什麼都沒做，只是在調整引數，這是一個很常見的情況。”前述開發者向記者感慨道。

不僅是超量引數帶來了調參難，隨之也形成一系列問題。“比如，在做跨任務 ( 例如從影象到語音 ) 的時候，相關的調參經驗基本沒有借鑑作用，經驗很難共享，”周志華表示。同時，結果的可重複性也非常難，“整個機器學習領域，深度學習的可重複性是最弱的。哪怕同樣的資料和演算法，只要引數設定不同，結果就不一樣。”

此外，深度神經網路模型複雜度必須是事前指定的，然後才能用BP演算法去加以訓練。但這個過程中存在悖論：在沒有解決任務之前，如何預先判定其複雜度？“所以實際上大家通常都是設定更大的複雜度。”周志華表示。

目前這一模型還存在許多別的問題，比如理論分析很困難，需要極大資料，黑箱模型等等。甚至有開發者向記者坦言，神經網路模型在有些領域應用很好，但在更多的領域，採用這一模型的效果不穩定，“如果樣本資料量足夠大，這一模型的準確率是很好的，但通常公司並沒有那麼多資料，計算也費勁。”

新的路徑？

既然深度神經網路模型存在痛點，那麼，在對其進行優化研究的同時，也不得不令人思考：是否存在其他深度學習模型的可能性？

這就涉及到深度學習的本質問題。事實上，深度神經網路的最重要的是特徵學習 ( 表示學習 ) ，即計算機能夠自行學習原始資料的特徵、提取特徵並表達出來，而這背後的核心是逐層處理。“與傳統機器學習技術相比，深度學習抽象級別不同，深度學習可能擁有很高級別的抽象。”前述開發者向記者解釋道，“計算出特徵之後還會繼續計算特徵的特徵，最終放到模型裡。 ”

另一個特質在於特徵的內部轉換。 “例如，決策樹也是一種逐層處理，但達不到深度神經網路的效果，就在於它的複雜度不夠，同時始終在同一個特徵空間下進行，中間沒有進行任何的特徵變化。”周志華指出。

此外還需要保證充分的模型複雜度。 “只有增加模型複雜度，學習能力才可能得以提升。”周志華指出，“逐層加工、特徵內部變換、充分模型複雜度，滿足這三條的深度學習模型，便能夠取得成功。”

就此，周志華嘗試提出深度神經網路模型之外的方法：深度森林模型。據介紹，該模型是一個基於樹模型的方法，主要借用了整合學習中的想法。 “在許多不同任務上，它的模型所得結果可以說與深度神經網路高度接近。特別是在跨任務中，它的表現非常好，可以用同樣一套引數，不再逐任務調參。”周志華指出。

“深度神經網路的底層是以神經網路為基礎，進而擴充套件層級深度，深度森林也是類似的概念。”一位南京大學相關研究人士向記者表示，“在深度神經網路模型中，堆疊了大量神經元，而深度森林裡，每一層神經元的位置變為森林。資料樣本通過每個森林得到一個預測結果後，將結果作為下一層的輸入。”

這樣做的好處是，每經過一層“森林”，機器都會自動判斷模型是否收斂，一旦達到正確性要求，模型就不會繼續計算，“所以模型是可控的。”前述研究人士向記者強調，“深度神經網路則是必須把層級定好，然後利用演算法求梯度。深度森林不需要優先制定層級，走了一定層級之後看驗證效果，好的話就不用往後走了。”因此，它對計算資源的要求也不大，“在 CPU 上就可以跑。”

當然，作為一個最新提出的模型，深度森林還在接受各方的討論。“就演算法本身而言，雖然在訓練效率、可解釋性方面優於神經網路，但在超大資料下未必能達到或者超過深度學習中的CNN(卷積神經網路)。”一位業內人士向記者直言，“不過，這一理論的最大貢獻可能在於，提出了一種有別於深度神經網路的深度結構，從而打破了業界對神經網路的迷信，為研究者提供了一個新的思路。”

一直以來，技術都是推動商業環境進化的重要因素，而目前最熱的技術升級趨勢，無疑是人工智慧。當下，儘管人工智慧行業本身已經進入了一個平穩的發展期，但它對於各行各業的賦能卻正在以更熱烈的姿態進行。

2018年11月30日上午，億歐將在北京國貿大酒店舉辦“新技術·新動能創新者論壇”，以技術為核心要素，從行業角度出發，探討新技術趨勢下，企業如何把握升級機會、跟上時代節奏，在諸多競爭者中脫穎而出。

詳情及報名連結： ofollow,noindex" target="_blank">https://www.iyiou.com/post/ad/id/730

AI熱潮的關鍵：深度學習不止深度神經網路

痛點頻頻

新的路徑？

您可能也會喜歡…