微軟亞洲研究院27篇論文入選AAAI 2019

機器翻譯神經網路 · 發表 2019-01-28 19:36:26

摘要：編者按：人工智慧領域的國際頂級會議AAAI 2019將於1月27日至2月1日在美國夏威夷舉行。根據已經公佈的論文錄取結果，今年的大會錄取率創歷史新低，投稿數量高達7745篇，錄取的數量僅有16%左右。但在被錄取的論文中，來自微軟亞洲研究院的卻有27篇之多，包括了機器學習、自然語言處理（...

編者按：人工智慧領域的國際頂級會議AAAI 2019將於1月27日至2月1日在美國夏威夷舉行。根據已經公佈的論文錄取結果，今年的大會錄取率創歷史新低，投稿數量高達7745篇，錄取的數量僅有16%左右。但在被錄取的論文中，來自微軟亞洲研究院的卻有27篇之多，包括了機器學習、自然語言處理（NLP）、計算機視覺和圖形學等多個領域。本文將詳細介紹這三個領域中來自微軟亞洲研究院的那些硬核論文。

機器學習

非自迴歸機器翻譯模型的兩種優化新方式

2018年，非自迴歸（Non-Autoregressive）機器翻譯模型引起了眾多研究人員的興趣。非自迴歸模型打破了翻譯過程順序性，將原來自迴歸機器翻譯的逐詞順序生成轉變為一次性產生所有目標端單詞，極大地提升了機器翻譯速度。然而，隨著順序依賴關係的打破，非自迴歸模型的翻譯準確率卻遠遠不及自迴歸機器翻譯模型；同時，漏翻譯和重複翻譯也將翻譯質量大打折扣。微軟亞洲研究院分別通過以下兩篇論文提出了針對上述兩個問題的解決方法。

代表論文：Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input

論文連結：https://arxiv.org/abs/1812.09664

在該論文中，研究員提出了兩種方法來提升解碼器的輸入質量，減少翻譯精度的損失。如下圖所示：第一種方法（Phrase-Table Lookup）直接利用詞表將源語言查表翻譯成目標語言並輸入到解碼器，第二種方法（Embedding Mapping）通過詞級別的對抗學習以及句子級別的對齊資訊，將源語言的詞向量對齊到目標語言的詞向量，作為解碼器的輸入。

通過在WMT14 En-De/De-En、WMT16 En-Ro、IWSLT14 De-En一共4個翻譯語言上的實驗，相比基線模型（NART），這種方法達到了3~5個BLEU 分的提升，相比先前最好的工作（IR-NAT）有1~5個BLEU分的提升。

該模型翻譯精度更加接近AT模型，在WMT16 En-Ro資料集上，相比AT模型（Transformer）僅有1個BLEU分的差距。在翻譯速度方面，相比AT模型（Transformer）最高有25倍的翻譯速度提升；相比NAT模型（LT、NART、IR-NAT）也有速度上的提升。

同時這兩種方法各有優勢，Phrase-Table Lookup在資料質量比較好的WMT14 De-En以及IWSLT De-En資料集上優勢明顯，因為能基於訓練集得到高質量的詞典，而在WMT14 En-De以及WMT16 En-Ro上，得到的詞典質量較差，因此Embedding Mapping更能顯現出優勢。

代表論文：Non-Autoregressive Machine Translation with Auxiliary Regularization

論文連結：https://taoqin.github.io/papers/nat.reg.AAAI2019.pdf

對於非自迴歸模型的重複翻譯和漏翻譯的問題，該論文提出了基於輔助約束（Auxiliary Regularization）的非自迴歸翻譯模型，如下圖。

重複翻譯的產生代表解碼器端相鄰位置的隱層表示（Hidden Representation）有著極大的相似性，從而解碼產生同樣的翻譯單詞。為此，研究員提出了相似性約束（Similarity Regularization）來限制兩個相鄰位置的隱層表示向量之間的關係：

其中s_cos代表兩個向量之間的餘弦距離。H_t代表解碼器第t個位置的隱層狀態向量，y_t代表第t個位置的目標單詞的單詞嵌入（embedding）向量。L_sim的意義在於，如果相鄰兩個位置（t和t+1）的目標單詞語義接近（s_cos⁡很大），那麼h_t和h_(t+1)也應該很接近，反之亦然。

對於漏翻譯，可以重建約束（Reconstruction Regularization），在非自迴歸模型的頂部新增一個反方向的自迴歸翻譯模型，進而要求解碼器的隱層向量在該反方向的模型中重建源端句子。通過這一約束，強制要求非自迴歸模型的翻譯含有所有資訊以克服漏翻譯的問題。

通過在多個數據集上與各個基線演算法進行了效能的對比，包括對於翻譯質量和翻譯速度的衡量。NAT-REG演算法不僅具有良好的效能，在翻譯速度（上圖最後兩列）也有了顯著的提升。通過這兩項約束項，非自迴歸機器翻譯模型的重複翻譯和漏翻譯的現象得到了極大的緩解。

深度神經網路模型的泛化及對泛化誤差的刻畫

在機器學習領域，理解深度神經網路模型的泛化性質以及刻畫其泛化誤差是一個熱點，論文“Capacity Control of ReLU Neural Networks by Basis-path Norm”論述了這一理論研究。

代表論文：Capacity Control of ReLU Neural Networks by Basis-path Norm

論文連結：https://arxiv.org/abs/1809.07122

ReLU神經網路具有正伸縮不變性，即一個隱節點的所有入邊乘以一個正常數c, 同時所有出邊除以一個正常數c, ReLU神經網路的輸出值不變。因此，一個恰當的與神經網路泛化性質有關的度量，應該也具有正伸縮不變性。基於ReLU神經網路的路徑的度量也滿足該性質。

對於神經網路的路徑（path），將ReLU神經網路看做一個有向無環圖，一條路徑p即為輸入節點至輸出節點的一條通路，路徑的值v(p) 被定義為其所經過的引數的乘積。那麼ReLU神經網路的第k維輸出可以表示為：

其中P_(i→k)表示連線第i個輸入節以及第k個輸出節點的所有路徑的集合；a(p;x)取值為1或0，分別代表該路徑的值在經過多層啟用函式作用後是否流入輸出。

路徑p_(i,j)的值等於w_(1,i)⋅w_(2,j), 那麼路徑之間相互關聯，例如v(p_(2,2) )=(v(p_(1,2) )⋅v(p_(2,1) ))/v(p_(1,1) ) 。

Path-norm被定義為所有路徑值的L2-範數，其被證明與ReLU神經網路的泛化能力緊密相關。然而，神經網路所有路徑值是相關聯的（如上圖），這會使得當Path-norm作為約束加入優化演算法中時，無法求解出閉式的更新法則。有工作通過研究路徑值之間的關係，在所有路徑值中找到了一組互不相關的路徑，稱為基路徑，並且其餘路徑均可通過基路徑的值進行計算。

這一論文提出了一個基於基路徑的度量。首先，基路徑可以分為兩類，一類的值在表達非基路徑時出現在分子，第二類的值在表達非基路徑時出現在分母。於是，出現在分母的基路徑值不能過大或過小。因此，限制前者的值靠近0，後者的值靠近1，受此啟發，研究員提出了一個僅基於基路徑的度量：BP-norm。

定義1: (BP-norm) 對於任意的路徑值向量

BP-norm定義如下：

其中

根據BP-norm, 可得如下泛化誤差的上界。

定理 1: 至少以概率 1-δ, 泛化誤差 (測試誤差 – 訓練誤差) of hypothesis space F can be upper bounded as

其中 Φ(u;d,H,L)=(e^2u+d⋅u^2 ) (1+H⋅u^2⋅e^2u )^(L-2) (4H)^L, d表示輸入維度, H表示網路的寬度, L表示網路的深度。

將BP-norm作為正則項加入損失函式，並用SGD和G-SGD來優化BP正則損失函式。下表展示了演算法在影象分類任務上的訓練誤差、測試誤差和泛化誤差，其中Δ反映了泛化誤差的大小。結果表明BP正則演算法可以有效地降低模型複雜度，從而取得更小的泛化誤差。

自然語言處理

AI也可以自動發彈幕了

彈幕，已經成為人們看視訊的一種習慣；不同使用者之間的彈幕往往會形成上下文回覆關係，更讓彈幕成為一種新的社交模式。基於這一現象，微軟亞洲研究院設計了一款名為LiveBot的自動彈幕生成系統。在這一系統中需要克服兩個難點：一是要充分理解視訊內容，根據其他使用者的評論彈幕生成適當的內容；二是要在合適的時間點顯示在對應的視訊幀之上。

代表論文：LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

論文連結：http://export.arxiv.org/pdf/1809.04938

該論文論述了兩種深度神經網路模型，基於視訊和文字的上下文資訊來生成彈幕，並構建了一個包含2,361個視訊和895,929條彈幕的大規模訓練資料集來驗證模型的有效性。

實驗結果表明，LiveBot能夠準確地學習到真實使用者在觀看視訊時進行彈幕評論的行為特點，有效地進行了視訊內容的理解和使用者評論的互動，同時在客觀評價指標上也取得優異的成績。

無監督機器翻譯的最新效能提升

最近一年，無監督機器翻譯逐漸成為機器翻譯界的一個研究熱點。在無監督場景下，神經機器翻譯模型主要通過聯合訓練（joint training）或交替回譯（iterative back-translation）進行逐步迭代。但是由於缺乏有效的監督訊號，回譯得到的偽訓練資料中會包含大量的噪音，這些噪音在迭代的過程中，會被神經機器翻譯模型強大的模式匹配能力放大，從而損害模型最終的翻譯效能。

代表論文：Unsupervised Neural Machine Translation with SMT as Posterior Regularization

論文連結：http://export.arxiv.org/pdf/1901.04112

該論文采用了後驗正則（Posterior Regularization）的方式將SMT（統計機器翻譯）引入到無監督NMT的訓練過程中，並通過EM過程交替優化SMT和NMT模型，使得無監督NMT迭代過程中的噪音能夠被有效去除，同時NMT模型也彌補了SMT模型在句子流暢性方面的不足。

該方法的整體結構大致分為兩部分，如上圖所示。左邊是模型初始化，通過單語資料訓練出兩種語言（如英語和法語）的詞向量（word embedding），之後通過無監督的訓練方法得到cross-lingual embedding，並通過計算其餘弦相似度得到初始的詞到詞的翻譯概率表（word translation table）。這個翻譯概率表連同由單語訓練得到的語言模型（language model）作為初始的SMT模型的特性，從而完成了模型初始化。

上圖右邊是方法的主體部分，初始的SMT模型翻譯一批單語資料，構成的偽資料作為初始NMT模型的訓練資料。在訓練得到初始的NMT模型後，將繼續進行交替回譯（右下，iterative back-translation NMT），並用收斂的NMT模型翻譯出一批新的偽資料。此時產生的偽資料含有大量的噪音，可以通過這批偽資料訓練新的SMT模型（右上，SMT as PR）。SMT模型通過構造質量更高的基於片段的翻譯概率表（phrase translation table），將偽資料中的噪音過濾掉，並通過翻譯新的一批單語資料，得到互譯性更好的一批偽資料。這一批偽資料便可以用於調整（fine-tune）之前的NMT模型，之後NMT模型再次進行交替回譯。我們將訓練NMT和SMT的過程整合在一個EM訓練框架中，兩個過程進行互動迭代直到最終收斂。

在英法(en-fr)和英德（en-de）語言對上進行的實驗中，這一方法明顯優於以前的方法，顯著提高了無監督機器翻譯的效能。

新型TTS：結合了Tacotron2和Transformer的優點

人機互動中有項重要的任務，即文字合成語音（Text to speech，TTS），以達到合成清晰自然且接近真人錄音的音訊。

在過去的幾十年裡，基於拼接的模型（concatenative model）和基於引數的模型（parametric model）是TTS領域的兩大主流；然而，兩者都有著非常複雜的流水線，而且挑選有效的聲學特徵通常是非常耗時且與語言密切相關的。除此之外，這兩種方法合成的音訊不流暢，而且在韻律和發音上與真人錄音都有較大的差距。

隨著神經網路的興起，一些端到端（end to end）的TTS模型逐漸出現，如Tacotron和Tacotron2，使得合成的音訊質量有了非常大的進步，甚至在某些特定的資料集上與真人錄音不相上下。這種端到端的TTS模型主要有兩部分：編碼器和解碼器。編碼器負責將文字對映到語義空間（semantic space）中，生成一個隱狀態序列；接著由解碼器（通常是一個基於RNN的神經網路）配合注意力機制（attention mechanism）將這個隱狀態序列解碼成頻譜。

然而，在RNN中，每一個隱狀態的生成都要基於之前所有的隱狀態以及當前時刻的輸入；因此模型只能序列地進行計算，限制了網路的平行計算能力，從而降低了運算效率。並且RNN難以對距離較遠的兩個輸入建立直接的依賴關係。而最近流行的自關注網路（Transformer）在訓練中可以實現平行計算，而且有能力在輸入序列的任意兩個token之間建立起直接的依賴。

代表論文：Neural Speech Synthesis with Transformer Network

論文連結：https://arxiv.org/abs/1809.08895

該論文中結合了Tacotron2和Transformer的優點，提出了新的TTS模型：通過使用多頭注意力(multi-head attention)機制代替了原本Tacotron2中的RNN以及編碼器和解碼器之間的attention。這樣，一方面通過自注意力(self attention) 機制，網路可以平行計算，從而使訓練效率達到了原來的4倍；同時，任意兩個輸入之間可以建立起直接的長距離依賴。另一方面，多頭的注意力機制可以從多個角度對輸入資訊進行整合。

如上圖，在Tacotron2的基礎上，使用Transformer的encoder和decoder分別代替原有的雙向RNN編碼器和雙層RNN解碼器；另一方面原始的注意力機制被多頭注意力機制取代從而能更好地對輸入資訊進行特徵提取；除此之外我們還對其它的網路結構，如positional encoding進行了調整。在該模型中，由於有自注意力機制的存在，可以更好地建立長距離依賴，從而能對包括韻律在內的音訊特徵進行更好的建模。

在MOS測試（滿分5分）中， Tacotron2和Transformer TTS model均能夠得到很接近真實的人聲錄音（即ground truth）的得分。在CMOS測試中（成對比較，得分[-3,3]分），我們的方法相比Tacotron2能夠得到顯著的效能提升。

另一方面，對比Transformer TTS model和Tacotron2合成的mel譜，可以發現，在低頻部分二者相近，都表現出了很強的能力；在高頻部分，Transformer TTS model能更好地還原頻譜的紋理，從而使合成的音訊有更高的質量。

基於改寫的複述生成模型更高效

代表論文：Dictionary-Guided Editing Networks for Paraphrase Generation

論文連結：https://arxiv.org/pdf/1806.08077.pdf

在自然語言處理中，句子複述應用很廣泛，例如被應用在資訊檢索、自動文摘、句子翻譯等任務。句子複述（Paraphrase）是指換一種方式表達原句，同時要與原句意思相同。人在完成句子複述的時候，往往會使用同義詞替換句子中的一些詞語，然後對替換後的句子進行簡單的修改。

以此為出發點，該論文提出了基於改寫網路的複述生成模型。複述生成模型首先使用原句進行檢索，得到一組詞語級別的複述對；然後將檢索得到的複述對進行編碼，得到一組固定長度的向量；最後基於改寫網路完成句子的複述。

上圖所示，複述生成模型建立在序列到序列模型（Seq2Seq）的框架下，進行解碼的過程中，採用了注意力機制（attention mechanism），對檢索得到的複述對進行權重組合，將加權之後的結果用於解碼器。如模型在解碼到overcome的時候，會更加側重於使用（overcome，get rid of）這樣的複述對。通過注意力機制讓模型自己學習如何進行改寫，在哪些地方需要進行替換和調整。

通過在MSCOCO和Quora兩個公開資料集上實驗，如上圖所示，基於改寫網路的複述生成模型在MSCOCO資料集上取得了最好的實驗結果，在Quora資料集上，在貪婪搜尋的條件下取得了最好的結果。

另外，通過分析實驗結果顯示，如上圖，在生成的複述中，機器會基於檢索得到的複述對進行改寫和替換，採用這種方式既保證了複述結果與原句的區別，同時又不會改變原意。

計算機視覺

MonoGRNet：單張影象估測物體三維位置

在影象中，傳統的物體定位或檢測估計二維邊界框，可以框住屬於影象平面上物體的可見部分。但是，這種檢測結果無法在真實的3D世界中提供場景理解的幾何感知，這對很多應用的意義並不大。

代表論文：MonoGRNet：A Geometric Reasoning Network for Monocular 3D Object Localization

論文連結：https://arxiv.org/abs/1811.10247

該論文提出了使用MonoGRNet，從單目RGB影象中通過幾何推斷，在已觀察到的二維投影平面和在未觀察到的深度維度中定位物體非模態三維邊界框（Amodal Bounding Box, ABBox-3D），即實現了由二維視訊確定物體的三維位置。

MonoGRNet的主要思想是將3D定位問題解耦為幾個漸進式子任務，這些子任務可以使用單目RGB資料來解決。網路從感知2D影象平面中的語義開始，然後在3D空間中執行幾何推理。這裡需要克服一個具有挑戰性的問題是，在不計算畫素級深度圖的情況下準確估計例項3D中心的深度。該論文提出了一種新的個體級深度估計（Instance Depth Estimation, IDE）模組，該模組探索深度特徵對映的大型感知域以捕獲粗略的例項深度，然後聯合更高解析度的早期特徵以優化IDE。

為了同時檢索水平和垂直位置，首先要預測3D中心的2D投影。結合IDE，然後將投影中心拉伸到真實3D空間以獲得最終的3D物件位置。所有元件都整合到端到端網路MonoGRNet中，其中有三個3D推理分支，如下圖。最後通過聯合的幾何損失函式進行優化，最大限度地減少3D邊界在整體背景下的邊界框的差異。

MonoGRNet由四個子網路組成，用於2D檢測（棕色），個體深度估計（綠色），3D位置估計（藍色）和區域性角落迴歸（黃色）。在檢測到的2D邊界框的引導下，網路首先估計3D框中心的深度和2D投影以獲得全域性3D位置，然後在本地環境中迴歸各個角座標。最終的3D邊界框基於估計的3D位置和區域性角落在全域性環境中以端到端的方式進行優化。

根據對具有挑戰性的KITTI資料集的實驗表明，該網路在3D物體定位方面優於最先進的單眼方法，且推理時間最短。

3D檢測效能，KITTI驗證集上的3D邊界框的平均精度和每張影象的推理時間。注意不比較基於Stereo的方法3DOP，列出以供參考。

MVPNet：單張影象重建物體三維模型

在相同的影象中，由於形狀、紋理，照明和相機配置的不同，若想從單幅RGB影象重建三維物體，這是一個強不適定的問題。但深度學習模型讓我們重新定義這個任務，即從一個特定的分佈生成實際樣本。深度卷積神經網路得益於規則的表達形式、資料取樣密度高、權重共享等等。

三角網格（triangular mesh）是表面（surface）的主要表示形式，但它的不規則結構不易編碼和解碼；大多數現存的深網使用三維體素網格（3D volumetric grid），但是稠密取樣計算複雜性高；最近的一些方法提倡無序點雲表示，但無序屬性需要額外的計算才能為點對點建立一一對應的對映，這各高代價的對映演算法，通常會使用較少的點來表示，從而產生稀疏的表面。

代表論文：MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image

論文連結：https://arxiv.org/abs/1811.09410

為了描繪稠密的表面，該論文引入了一種有效的基於多檢視（multi-view）的表現形式，通過用多個視點可見的稠密點雲並集來表示表面，分配視點時覆蓋儘量多的表面。

（a）MVPC表示。1-VPC中的每個畫素都儲存來自該畫素的反投影表面點（x，y，z）及其可見性v 。儲存的三維點根據影象平面上的二維網格進行三角化，此圖顯示網格三角形的法線以指示表面的方向。（b）給定RGB影象，MVPNet生成一組1-VPC，它們的聯合形成了預測的MVPC。幾何損失函式用來測量預測和真實的MVPC。

上圖描繪了多檢視點雲（MVPC）。每個點雲端儲存在嵌入檢視像平面中的二維網格中。單視點雲（1-VPC）看起來像深度圖，但每個畫素儲存三維座標和可見性資訊，而不是來自該畫素的反投影表面點的深度。反投影變換提供了1-VPC中具有相等攝像機引數的點集的一對一對映。同時，該論文從二維網格引入三維點的區域性連通性，促使基於這些反投影點形成三角形網格表面。至此，表面重建問題被轉化為迴歸儲存在MVPC中的三維座標和可見性資訊。

通過使用編碼器-解碼器網路作為條件取樣器來生成MVPC，上圖（b）所示。編碼器提取影象特徵並分別將它們與不同的視點特徵組合。解碼器由多個權重共享分支組成，每個分支生成一個檢視相關的點雲。所有1-VPC的聯合構成了最終的MVPC，如下圖。

給定輸入影象I，由編碼器和解碼器組成的MVPNet對N個視點c _i的1-VPC進行迴歸。 N個特徵（z，c_i）被饋送到解碼器的N個分支中，其中分支共享權重。

這裡提出了一種新穎的幾何損失函式，如下圖，來衡量真實三維表面與二維平面相比的差異。與先前基於檢視的方法不同，他們間接計算二維投影空間（即影象平面）中的特徵而且忽略了由於從三維到二維的降維而導致的資訊損失，這裡MVPC允許我們在構造的三角形網格上作離散表面變化的積分，即直接計算了三維表面。幾何損失函式整合了三維體積變化，預測置信度和多檢視一致性，大大提高了三維重建的精確度。

損失函式（a）1-VPC的逐點距離（b）準量三維體積差異（c）多檢視一致性

下圖展示了在公共資料集ShapeNet和真實影象的結果，可見這個方法可以生成稠密的三維表面。另外，使用兩個學到的特徵作線性差值後再用解碼器生成的三維重建模型，MVPNet學到的特徵空間具有較好的表達性和連續性。

ShapeNet資料集結果比較

真實影象三維重建結果

學習到的特徵線性插值生成的三維重建結果

微軟亞洲研究院全部被接受論文列表如下：

Balanced Sparsity for Efficient DNN Inference on GPU
Capacity Control of ReLU Neural Networks by Basis-path Norm
Deep Single-View 3D Object Reconstruction with Visual Hull Embedding
Detect or Track: Towards Cost-Effective Video Object Detection/Tracking
Dictionary-Guided Editing Networks for Paraphrase Generation
DRr-Net: Dynamic Re-read Network for Sentence Semantic Matching
Explainable Recommendation Through Attentive Multi-View Learning
FANDA: A Novel Approach to Perform Follow-up Query Analysis
GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named
Entity Recognition
Learning Basis Representation to Refine 3D Human Pose Estimations
Leveraging Web Semantic Knowledge in Word Representation Learning
LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
Modeling Local Dependence in Natural Language with Multi-Channel Recurrent Neural Networks
MonoGRNet：A Geometric Reasoning Network for Monocular 3D Object Localization
MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image
Neural Speech Synthesis with Transformer Network
Non-Autoregressive Machine Translation with Auxiliary Regularization
Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input
Read + Verify: Machine Reading Comprehension with Unanswerable Questions
Regularizing Neural Machine Translation byTarget-bidirectional Agreement
Response Generation by Context-aware Prototype Editing
Sentence-wise Smooth Regularization for Sequence to Sequence Learning
Session-based Recommendation with Graph Neural Network
TableSense: Mask R-CNN for Spreadsheet Table Detection
Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder
Trust Region Evolution Strategies
Unsupervised Neural Machine Translation with SMT asPosterior Regularization