神經語言模型的最新進展
楊植麟是卡內基梅隆大學電腦科學學院的四年級博士生,由Apple AI負責人Ruslan Salakhutdinov指導。在過去的三年中,他作為第一作者在ICIR、ICML、NeurIPSACL和EMNLP等頂級AI會議發表了10多篇論文,並且獲得了Nvidia先鋒研究獎,Facebook ParlAI研究獎,Nvidia博士獎學金和Siebel獎學金。他曾在Facebook AI Research和Google Brain工作,並與JasonWeston,Quoc V. Le,Yann Lecun,Yoshua Bengio和Chris Manning合作,曾在唐傑教授指導下,在本科時便發表多篇論文,並以GPA第一名的成績獲得了清華大學的學士學位。
在此次演講中,他介紹了改進 神經語言模型 神經架構的最新進展:
-
超越Softmax瓶頸的高秩語言模型。
-
用於建模長距離依賴性的Transformer網路。通過提出的技術,在六個主流語言建模資料集上取得世界第一的結果,包括enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words。
-
此外還介紹了HotpotQA,這是一個用於測試多步推理的挑戰資料集。
以下是他此次演講的主要內容
-
優化語言建模目標的變數
-
用於下游任務的精細調優或特徵提取
但是他隨即表明挑戰依然存在:
-
如何改進 神經語言模型
-
更困難的任務:多跳推理(multi-hop reasoning),可解釋性
此次演講內容依次為:
-
High-rank LM(高秩語言模型)
-
Transformer-XL
-
HotpotQA
第一部分:High-rank LM(高秩語言模型)
1.語言模型的構建:自迴歸因式分解
2. 帶softmax的 神經語言模型 介紹:構建
因式分解
Softmax瓶頸:如果embedding size太小,則Softmax沒有表達真實資料分佈的能力。
語言模型的秩是什麼?—“base meanings”的最小值,需要線性地跨越整個對數概率空間。
高秩假設說明Softmax瓶頸是真實存在的。
怎麼樣解決Softmax瓶頸?(基本思路)
提出的解決辦法:Mixture ofSoftmaxes (MoS)
在Penn Treebank (PTB)、WikiText-2 (WT2)、One Billon WordDataset以及三個資料集集合上的實驗效果,顯示資料集越大,該方法的提升效果越明顯。
總的來說,從softmax到MOS取得了很好的效果,其他的任務需要更高秩的表達,例如,摘要、對話、機器翻譯、自動語音識別等。
第二部分:Transformer-XL
Transformer介紹:Transformer是Vaswani等人提出來的概念 Transformer → Multi-Head Self-Attention +Positional Encoding。
Vanilla Transformer Language Models的構建步驟
Transformer-XL構建語言模型
Transformer-XL的訓練
Transformer-XL的警告:
-
位置編碼對於時態資訊至關重要
-
標準位置編碼不允許重用以前的狀態
enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words資料集實驗均顯示State-of-the-art的結果。
第三部分:HotpotQA
他提到了《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering》這篇論文,並給大家講了“HotpotQA”這個資料集名稱的由來,他和同學在紐約吃火鍋的時候討論到這個問題,說想要建立這樣一個數據集,所以就起名叫
火鍋QA,順便還可以發揚一下中國的火鍋,看樣子,做這個資料集的同學們也是一群吃貨吶。
接下來他給大家介紹了根據目前問答的研究現狀,HotpotQA設計來實現跨多個文件的多跳推理。
實驗資料集的統計與分析
在演講的最後,他表示未來的工作主要有兩項:
1. 將這些新的模型運用到預訓練中
2. HotpotQA方法與BERT類似的方法進行比較