神經語言模型的最新進展

語言模型 · 發表 2018-12-13 18:32:00

摘要：楊植麟是卡內基梅隆大學電腦科學學院的四年級博士生，由Apple AI負責人Ruslan Salakhutdinov指導。在過去的三年中，他作為第一作者在ICIR、ICML、NeurIPSACL和EMNLP等頂級AI會議發表了10多篇論文，並且獲得了Nvidia先鋒研究獎，Faceb...

楊植麟是卡內基梅隆大學電腦科學學院的四年級博士生，由Apple AI負責人Ruslan Salakhutdinov指導。在過去的三年中，他作為第一作者在ICIR、ICML、NeurIPSACL和EMNLP等頂級AI會議發表了10多篇論文，並且獲得了Nvidia先鋒研究獎，Facebook ParlAI研究獎，Nvidia博士獎學金和Siebel獎學金。他曾在Facebook AI Research和Google Brain工作，並與JasonWeston，Quoc V. Le，Yann Lecun，Yoshua Bengio和Chris Manning合作，曾在唐傑教授指導下，在本科時便發表多篇論文，並以GPA第一名的成績獲得了清華大學的學士學位。

在此次演講中，他介紹了改進神經語言模型神經架構的最新進展：

超越Softmax瓶頸的高秩語言模型。
用於建模長距離依賴性的Transformer網路。通過提出的技術，在六個主流語言建模資料集上取得世界第一的結果，包括enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words。
此外還介紹了HotpotQA，這是一個用於測試多步推理的挑戰資料集。

以下是他此次演講的主要內容

他首先提到了深度學習自然語言處理的最近趨勢，如下：

優化語言建模目標的變數
用於下游任務的精細調優或特徵提取

但是他隨即表明挑戰依然存在：

如何改進神經語言模型
更困難的任務：多跳推理（multi-hop reasoning），可解釋性

此次演講內容依次為：

High-rank LM（高秩語言模型）
Transformer-XL
HotpotQA

第一部分：High-rank LM（高秩語言模型）

1.語言模型的構建：自迴歸因式分解

2. 帶softmax的神經語言模型介紹：構建

因式分解

Softmax瓶頸：如果embedding size太小，則Softmax沒有表達真實資料分佈的能力。

語言模型的秩是什麼？—“base meanings”的最小值，需要線性地跨越整個對數概率空間。

高秩假設說明Softmax瓶頸是真實存在的。

怎麼樣解決Softmax瓶頸？（基本思路）

提出的解決辦法：Mixture ofSoftmaxes (MoS)

在Penn Treebank (PTB)、WikiText-2 (WT2)、One Billon WordDataset以及三個資料集集合上的實驗效果，顯示資料集越大，該方法的提升效果越明顯。

總的來說，從softmax到MOS取得了很好的效果，其他的任務需要更高秩的表達，例如，摘要、對話、機器翻譯、自動語音識別等。

第二部分：Transformer-XL

Transformer介紹：Transformer是Vaswani等人提出來的概念 Transformer → Multi-Head Self-Attention +Positional Encoding。

Vanilla Transformer Language Models的構建步驟

Transformer-XL構建語言模型

Transformer-XL的訓練

Transformer-XL的警告：

位置編碼對於時態資訊至關重要
標準位置編碼不允許重用以前的狀態

enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words資料集實驗均顯示State-of-the-art的結果。

第三部分：HotpotQA

他提到了《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering》這篇論文，並給大家講了“HotpotQA”這個資料集名稱的由來，他和同學在紐約吃火鍋的時候討論到這個問題，說想要建立這樣一個數據集，所以就起名叫

火鍋QA，順便還可以發揚一下中國的火鍋，看樣子，做這個資料集的同學們也是一群吃貨吶。

接下來他給大家介紹了根據目前問答的研究現狀，HotpotQA設計來實現跨多個文件的多跳推理。

實驗資料集的統計與分析

在演講的最後，他表示未來的工作主要有兩項：

1. 將這些新的模型運用到預訓練中

2. HotpotQA方法與BERT類似的方法進行比較

神經語言模型的最新進展

以下是他此次演講的主要內容

您可能也會喜歡…