四個問題,Yoshua等27位前沿研究者,這是一份NLP領域的請回答2018
今年9月份,深度學習Indaba2018峰會在南非斯泰倫博斯舉辦,包括谷歌大腦Jeff Dean在內的一眾研究者都到場進行了分享。一位來自Insight資料分析研究中心的博士生Sebastian Ruder在準備自己的分享期間,就四個問題諮詢了包括Yoshua Bengio在內的20+位這個領域的前沿研究者。
昨天,Sebastian Ruder在推特上公開了完整的20餘份問答實錄,以及他對這些答案相關的分享總結。從中可以一窺自然語言處理這一領域近期的發展。
先來看看這四個引入深省的大問題:
1.你認為目前NLP面臨最大的三個問題是什麼?
What do you think are the three biggest open problems in NLP at the moment?
2.過去十年,你認為對NLP領域影響最深遠的研究是什麼?
What would you say is the most influential work in NLP in the last decade, if you had to pick just one?
3.如果有的話,是哪些因素讓這個領域走向了錯誤的方向?
What, if anything, has led the field in the wrong direction?
4. 你有什麼建議給NLP領域的碩士研究生?
What advice would you give a postgraduate student in NLP starting their project now?
共有20餘位來自自然語言處理業界和學界的前沿研究者受邀回答了這些問題。大資料文摘選取了神經網路之父、“花書”作者Yoshua Bengio和芝加哥大學副教授Kevin Gimpel的回答作為代表進行了編譯,完整問答實錄可在大資料文摘後臺留言“ 20181212 ”(今天的日期)獲取。
大咖列表如下:point_down:
Hal Daumé III,Barbara Plank,Miguel Ballesteros,Anders Søgaard,Manaal Faruqui,Mikel Artetxe,Sebastian Riedel,Isabelle Augenstein,Bernardt Duvenhage,Lea Frermann,Brink van der Merwe,Karen Livescu,Jan Buys,Kevin Gimpel,Christine de Kock,Alta de Waal,Michael Roth,Maletěabisa Molapo,Annie Louise,Chris Dyer,Yoshua Bengio,Felix Hill,Kevin Knight,Richard Socher,George Dahl,Dirk Hovy,Kyunghyun Cho
Yoshua Bengio
1.你認為目前NLP面臨最大的三個問題是什麼?
-
基礎語言學習,即共同學習世界模型以及如何用自然語言處理中引用模型;
-
在深度學習框架內融合語言理解和推理;
-
常識的理解,只有解決了上述兩個問題,才能解決常識問題。
2.哪些因素讓這個領域走向了錯誤的方向?
是貪婪。
我們總是在意短期回報,我們總是想辦法利用一切我們可支配的資料訓練模型,然後希望模型能夠智慧的理解和生成語言。但是,如果我們不能建立世界模型,不能深層次的理解世界是如何運作的,我們永遠不會找到智慧語言的祕密,即使我們設計的神經網路模型有多麼精巧。因此,我們必須要緊牙關,致力於用NLP解決AI,而不是孤立的理解自然語言處理。
4.你對研究生開始他們的NLP專案有什麼建議?
廣泛閱讀,不要侷限於閱讀NLP論文。閱讀大量機器學習,深度學習,強化學習論文。博士學位是一個人一生中實現追求目標的大好時機,即使是朝著這個目標邁出一小步也是值得珍惜的。
Kevin Gimpel
1.你認為NLP目前最大的三個問題是什麼?
最大的問題與自然語言的理解有關,即使在生成任務中,所有的挑戰都可以這麼理解:計算機不理解文字對人的作用是什麼。
設計的模型應該像人類那樣閱讀和理解文字,通過形成文字世界的表示法,包括物件、設定、目標願望、信念等要素。當然,還要有人類理解文字背後所需的其他因素。
在設計出理想模型之前,所有的進步都基於提高模型模式匹配的能力。模式匹配對於開發和改善產品是有效的。我不認為僅僅需要模式匹配就能產生一臺“理性”機器。
2. 過去十年中,在NLP方面,最有影響力的一部作品是什麼?
《自然語言處理幾乎從零開始(Natural Language Processing (Almost) from Scratch)》,這一論文由 Ronan Collobert、Jason Weston、Leon Bottou、Michael Karlen、Koray Kavukcuoglu和 Pavel Kuksa等人合力完成,並在2011年發表。簡單來說,它以Colobert和Weston在2008年的一篇論文為基礎,但對其進行了擴充套件與發揮。該論文介紹了當前NLP設計常見的幾種方法,例如,使用神經網路進行NLP多工學習、使用未標記資料進行預訓練詞嵌入等等。
3. 是什麼原因導致我們踏進了自然語言處理的“陷阱”
我認為是當前NLP傳統的處理方法,例如採用的傳統的監督學習,其中有一條假設是,測試資料與訓練資料服從相同的概率分佈,這與現實實際完全不符合。至少,真實的測試資料與訓練資料在時間上的分佈是不同的,有時甚至是幾十年的差距!所以,我們應該致力於域外學習,時間遷移等。
傳統的無監督學習和傳統的監督學習都是不現實的,所以很高興看到NLP研究人員最近關注混合使用,無論給它們起什麼名字,半監督也好,弱監督也可,它們都是一種混合的設定。
4. 你對NLP的研究生現在開始他們的專案有什麼建議?
不要害怕創新,要勇於嘗試新鮮事物。通常來說,風險越大,收益也越大。如果失敗了,或者說不符合預期,你也可能在過程中學到許多非常有趣的事情,非常有可能為你發表論文積累材料。
Sebastian Ruder也整理了20餘位研究者的迴應,並在大會的報告中給出了以下總結。
大資料文摘後臺回覆“20181212”(今天的日期)獲取完整報告PPT。
自然語言處理領域發展的里程碑:point_down:
問題一:NLP研究領域最大的問題
總結25位研究者的回答後,我們得出了這四大問題:point_down:
1、自然語言理解
2、低資源情景下的NLP
3、大規模或多檔案推理
4、資料集,問題及評估
問題二:哪些因素讓這個領域走向了錯誤的方向?
問題三:你有什麼建議給NLP領域的碩士研究生?