四個問題，Yoshua等27位前沿研究者，這是一份NLP領域的請回答2018

自然語言處理 · 發表 2018-12-12 18:10:38

摘要：今年9月份，深度學習Indaba2018峰會在南非斯泰倫博斯舉辦，包括谷歌大腦Jeff Dean在內的一眾研究者都到場進行了分享。一位來自Insight資料分析研究中心的博士生Sebastian Ruder在準備自己的分享期間，就四個問題諮詢了包括Yoshua Bengio在內的20+位這個...

今年9月份，深度學習Indaba2018峰會在南非斯泰倫博斯舉辦，包括谷歌大腦Jeff Dean在內的一眾研究者都到場進行了分享。一位來自Insight資料分析研究中心的博士生Sebastian Ruder在準備自己的分享期間，就四個問題諮詢了包括Yoshua Bengio在內的20+位這個領域的前沿研究者。

昨天，Sebastian Ruder在推特上公開了完整的20餘份問答實錄，以及他對這些答案相關的分享總結。從中可以一窺自然語言處理這一領域近期的發展。

先來看看這四個引入深省的大問題：

1.你認為目前NLP面臨最大的三個問題是什麼？

What do you think are the three biggest open problems in NLP at the moment?

2.過去十年，你認為對NLP領域影響最深遠的研究是什麼？

What would you say is the most influential work in NLP in the last decade, if you had to pick just one?

3.如果有的話，是哪些因素讓這個領域走向了錯誤的方向？

What, if anything, has led the field in the wrong direction?

4. 你有什麼建議給NLP領域的碩士研究生？

What advice would you give a postgraduate student in NLP starting their project now?

共有20餘位來自自然語言處理業界和學界的前沿研究者受邀回答了這些問題。大資料文摘選取了神經網路之父、“花書”作者Yoshua Bengio和芝加哥大學副教授Kevin Gimpel的回答作為代表進行了編譯，完整問答實錄可在大資料文摘後臺留言“ 20181212 ”（今天的日期）獲取。

大咖列表如下:point_down:

Hal Daumé III，Barbara Plank，Miguel Ballesteros，Anders Søgaard，Manaal Faruqui，Mikel Artetxe，Sebastian Riedel，Isabelle Augenstein，Bernardt Duvenhage，Lea Frermann，Brink van der Merwe，Karen Livescu，Jan Buys，Kevin Gimpel，Christine de Kock，Alta de Waal，Michael Roth，Maletěabisa Molapo，Annie Louise，Chris Dyer，Yoshua Bengio，Felix Hill，Kevin Knight，Richard Socher，George Dahl，Dirk Hovy，Kyunghyun Cho

Yoshua Bengio

1.你認為目前NLP面臨最大的三個問題是什麼？

基礎語言學習，即共同學習世界模型以及如何用自然語言處理中引用模型；
在深度學習框架內融合語言理解和推理；
常識的理解，只有解決了上述兩個問題，才能解決常識問題。

2.哪些因素讓這個領域走向了錯誤的方向？

是貪婪。

我們總是在意短期回報，我們總是想辦法利用一切我們可支配的資料訓練模型，然後希望模型能夠智慧的理解和生成語言。但是，如果我們不能建立世界模型，不能深層次的理解世界是如何運作的，我們永遠不會找到智慧語言的祕密，即使我們設計的神經網路模型有多麼精巧。因此，我們必須要緊牙關，致力於用NLP解決AI，而不是孤立的理解自然語言處理。

4.你對研究生開始他們的NLP專案有什麼建議？

廣泛閱讀，不要侷限於閱讀NLP論文。閱讀大量機器學習，深度學習，強化學習論文。博士學位是一個人一生中實現追求目標的大好時機，即使是朝著這個目標邁出一小步也是值得珍惜的。

Kevin Gimpel

1.你認為NLP目前最大的三個問題是什麼？

最大的問題與自然語言的理解有關，即使在生成任務中，所有的挑戰都可以這麼理解：計算機不理解文字對人的作用是什麼。

設計的模型應該像人類那樣閱讀和理解文字，通過形成文字世界的表示法，包括物件、設定、目標願望、信念等要素。當然，還要有人類理解文字背後所需的其他因素。

在設計出理想模型之前，所有的進步都基於提高模型模式匹配的能力。模式匹配對於開發和改善產品是有效的。我不認為僅僅需要模式匹配就能產生一臺“理性”機器。

2. 過去十年中，在NLP方面，最有影響力的一部作品是什麼？

《自然語言處理幾乎從零開始（Natural Language Processing (Almost) from Scratch）》，這一論文由 Ronan Collobert、Jason Weston、Leon Bottou、Michael Karlen、Koray Kavukcuoglu和 Pavel Kuksa等人合力完成，並在2011年發表。簡單來說，它以Colobert和Weston在2008年的一篇論文為基礎，但對其進行了擴充套件與發揮。該論文介紹了當前NLP設計常見的幾種方法，例如，使用神經網路進行NLP多工學習、使用未標記資料進行預訓練詞嵌入等等。