ICLR2019最佳論文：能學習語言層級結構的深度模型ON-LSTM

LSTM ICLR · 發表 2019-05-13 16:34:50

摘要： 5月9日，2019年的 ICLR（International Conference on Learning Representations）在美國新奧爾良落下帷幕。ICLR 誕生於 2013 年，在眾多人工智慧領域的會議中顯得格外年輕。雖然建立時間短，在國內電腦科學研究者熟知的C...

5月9日，2019年的 ICLR（International Conference on Learning Representations）在美國新奧爾良落下帷幕。ICLR 誕生於 2013 年，在眾多人工智慧領域的會議中顯得格外年輕。雖然建立時間短，在國內電腦科學研究者熟知的CCF列表中並未收錄，但ICLR卻勢頭迅猛，快速躋身機器學習頂級會議的行列。這其中最重要的原因就是它“出身不凡”，由剛剛獲得2018 年度圖靈獎的三巨頭中的兩位 Yoshua Bengio 與 Yann Lecun 組織建立，幾年來吸引了大量優秀的科研人員。

圖丨2013年第一屆ICLR會議網站主頁上，Yoshua Bengio 與 Yann Lecun 聯名釋出的會議通告。來源：2013年 ICLR 會議主頁

在2013年第一屆 ICLR 會議的網站上，Yoshua Bengio 與 Yann Lecun 介紹了他們創辦這一會議的初衷：機器學習方法的效果非常依賴於資料的表示（或稱為特徵）的選擇。表示學習領域一直關注如何更好地學習到有意義的、優越的資料表示方法。儘管眾多會議上都有與表徵學習相關的主題，但缺少一個專注於這一主題的會議。因此，ICLR 在二人的牽頭下被創立。也正是在2013年，Bengio 發表了關於表徵學習的綜述“ Representation learning: A review and new perspectives ”，總結了這一領域的成果。

表徵學習在機器學習、人工智慧領域有著相當重要的地位。早在1969年，諾貝爾經濟學獎和圖靈獎的獲得者，人工智慧、認知科學之父 Herbert A. Simon（司馬賀）在其經典鉅著“The Sciences of the Artificial”中，將人類的資訊處理過程（包括解決問題，學習和發現新知識）抽象為非常簡單的模型。

人類的資訊處理過程與長期記憶和短期記憶密切相關。短期記憶是短期儲存的記憶，長期記憶就是我們大腦中長期儲存的知識，就像在圖書館中儲存的海量文獻。根據這個簡單的資訊處理模型，再加上計算機更快的計算速度和海量的儲存空間，人工智慧應該比人類更為強大才是。
但至少目前，我們看到的情況並非如此。這其中一個重要的原因就是我們還未能破解人類大腦究竟是如何對資料進行編碼，對知識進行儲存的。處理外界資訊的第一步就是要將其編碼，投影到某一空間。比如說，當人類僅需要幾個例子就可以區分驢和馬的不同，而機器卻需要大量資料訓練時，我們不由得想要探尋：人類是如何對影象進行編碼的？他提取了哪些特徵可以通過少量樣本進行學習？為什麼人類學習的知識更靈活，可以在更多方面應用，而機器學習的模型通用性往往很差？這正是表徵學習探索的目標：尋找對資料更好的表示方式。

目前深度學習面臨著諸多的侷限，如深度學習模型似乎無法處理層級結構，有人因此認為它不會通向真正的智慧。而獲得 ICLR2019 最佳論文獎的論文 “Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks”，則在此方面取得突破，設計了一種利用深度學習模型對語言的層級結構（樹狀）進行建模的方法。

人工智慧在符號主義衰落後曾進入寒冬，因為深度學習的發展迎來又一春。近年來，深度學習同樣在不同型別資料的表徵學習領域所向披靡。

語言與其他資料一個顯著的區別就在於其本身擁有一定的層級結構，因為語言的組成受到語法規則限制，低層級的語義單元組成高層級的語義單元，而最高層級的語義單元就代表了整個句子的含義。人們曾經試圖對語言的這種結構進行建模，利用語法規則進行語義解析，建立語義分析樹，再根據解析的結果從下而上遞迴獲得句子的表徵，例如Stanford的語義依賴分析工具。

然而，針對每一種語言建立詳盡的規則系統費時耗力。隨著深度學習的興起，人們開始藉助複雜的深度學習模型獲得各類資料的表徵，文字自然也不例外。文字以序列的形式被直接輸入到深度學習模型中，語言原本的層級結構被忽略。我們熟知的各種語言模型，比如去年掀起風潮Bert等均是如此。

本文中，作者試圖在深度學習模型中對語言的層級結構（樹狀結構）建模。想要達到這一目的，一般的思路往往是對模型的整體結構進行改動，例如將模型設計為層級結構。但作者在本文中卻另闢蹊徑，利用不同層級語義單元的更新頻率建立起不同神經元之間的聯絡，讓他們擁有次序和等級。

如上圖所示，圖（a）是句子成分分析樹；圖（b）是將其抽象為模組形式。可以看到，表示S和VP的結點都橫跨了多個時間步。也就是說，對句子進行編碼的各個結點的更新頻率是不同的。表示底層詞語的結點更新更為頻繁，而表示更高層次語義單元的神經元更新頻率較低，表示整個句子語義的結點（S）更新頻率最低。圖（c）的顏色深淺表示不同層級神經元更新的頻率。同時，如果一個高層級的神經元更新了，其後的一系列神經元都應該更新。

然而在原本的 LSTM 模型中，神經元之間的更新是彼此獨立、互不聯絡的。為此，作者對 LSTM 單元中進行了改動，增加了兩個門：master forget gate和master input gate，它們使用新的啟用函式 cumax 根據在其之前的神經元的狀態控制要儲存和遺忘的資訊。通過引入這樣的門機制便建立起了神經元之間相互依賴的更新規則，使神經元之間便有了次序，有了層級的區別。除此之外，該模型與使用 LSTM 建立的語言模型無異。

那這樣的做法能否取得對文字更好的表徵呢？作者進行了一系列實驗檢驗 ON-LSTM 的結果，包括建立語言模型評估模型捕捉各種語言現象的能力、無監督的成分解析等全面測評了模型對語言的建模能力，均取得了較好的效果。

圖：論文中的語義解析示例。左邊為2層 ON-LSTM 模型的解析結果，右側為人類標註的答案。

成分是作者進行的一系列實驗之一。作者利用 ON-LSTM 模型預測每個結點成為句子切分點的概率，然後根據概率值將這些切分點由大到小排序，依次對句子進行切分，一些實驗結果的示例如上圖所示。從圖中可以看出，雖然對模型結構沒有大的改動，但 ON-LSTM 的確在對文字進行建模時在一定程度上捕捉到了資料中的層級結構。同時，該模型並沒有使用任何預先給定的專家知識，這些切分規則完全從資料中學習。

近年來，針對深度學習的爭議愈發熱烈。儘管深度學習在下圍棋、打遊戲等任務上表現亮眼，但也面臨許多反對的聲音。有些研究人員認為從符號主義到連線主義是人工智慧的倒退，因為像黑箱子一樣的深度學習模型可以給出結論，卻不會解釋原因；也有人認為深度學習存在相當多的侷限性，它不會通向真正的智慧，而是遲早會走到盡頭。2018年10月，紐約大學教授 Gary Marcus 就曾發文質疑深度學習，他認為深度學習模型無法處理層級結構，深度學習應該與經典的符號主義相結合。而今天介紹的這篇論文，似乎讓我們看到了深度學習在學習層級結構方面的潛力，對深度學習的探索也許遠遠沒到盡頭。

最後，我們以 DeepTech 在去年11月採訪 Bengio 時，他對 Gary Marcus 對深度學習質疑的迴應結束本文：

“我不知道接下來幾年深度學習將走向何方，畢竟我沒有水晶球。每個研究人員都有他自己的想法。我認為這很好，因為我們都不知道最優解來自何方，因此研究的多樣性非常重要。作為一個社群，我們必須鼓勵探索。因為沒有人能確切地掌握未來。”

作者：維尼，責編：黃珊

參考資料：

（1）論文地址：

https://arxiv.org/pdf/1810.09536.pdf

論文專案地址： https://github.com/yikangshen/Ordered-Neurons

（2）《The Sciences of the Artificial》 Herbert A. Simon

-End-

DeepTech 招聘 : 科技編輯/記者，實習生

座標：北京·國貿

聯絡方式：[email protected]

請隨簡歷附上3篇往期作品（實習生除外）

點選閱讀原文了解題跋派 ↓↓↓

ICLR2019最佳論文：能學習語言層級結構的深度模型ON-LSTM

您可能也會喜歡…