谷歌開源頂級人工智慧自然語言預處理訓練技術

開源人工智慧 · 發表 2018-11-03 16:19:51

摘要：自然語言處理（NLP）是人工智慧（AI）的子類別，可用於語言翻譯、情感分析、語義搜尋等許多語言相關任務，但是這說起來容易做起來難。訓練NLP文字解析AI系統需要採購大量多源頭資料集，對研究人員來說是一項持續的挑戰：需要使用最新的深度學習模型，模仿人類大腦中神經元的行為，在數百萬甚至數...

自然語言處理（NLP）是人工智慧（AI）的子類別，可用於語言翻譯、情感分析、語義搜尋等許多語言相關任務，但是這說起來容易做起來難。訓練NLP文字解析AI系統需要採購大量多源頭資料集，對研究人員來說是一項持續的挑戰：需要使用最新的深度學習模型，模仿人類大腦中神經元的行為，在數百萬甚至數十億的註釋示例中進行訓練來持續改進。

當下一種流行的NLP解決方案是預訓練，它改進了對未標記文字進行訓練的通用語言模型，以執行特定任務。谷歌本週開源來該領域的最前沿技術 – ofollow,noindex" target="_blank">Transformer雙向編碼器（BERT）。谷歌聲稱開發人員可以在在雲端30分鐘內訓練“最先進”的NLP模型TPU（谷歌的雲託管加速器硬體），在單獨的圖形處理單元上訓練也只需數小時。

目前BERT的最新版本已經發布到 Github 上，包括預訓練的語言表示模型（英文）和構建在TensorFlow機器學習框架之上的原始碼。此外，Colab上還有一個相應的筆記本，這是Google為AI開發人員提供的免費雲服務。

BERT是深度雙向、OpenAI GPT是單向、ELMo是淺層雙向

正如Google AI的研究科學家Jacob Devlin和Ming-Wei Chang所解釋的那樣， BERT的獨特之處在於它既具有雙向性（上圖），可以從過去和未來雙向訪問上下文，並且無人監督，這意味著它可以處理沒有分類和標記的資料。這與傳統的NLP模型（如word2vec和GloVe）相反，後者為詞彙表中的每個單詞生成單個無上下文的單詞嵌入（單詞的數學表示）。

BERT通過預先訓練來自任何語料庫生成的任務，來學習建模句子之間的關係，Devlin和Chang寫道。它建立在Google的Transformer之上，這是一種基於自我關注機制的開源神經網路架構，該機制針對NLP進行了優化。（在去年發表的一篇論文中，谷歌表明，Transformer在英語到德語和英語到法語的翻譯基準表現優於傳統模式，同時訓練需要的計算也更少。）

測試斯坦福問答資料集（SQUAD））——一個閱讀理解資料集包含一組維基百科文章提出的問題，BERT達到了93.2％的準確率，擊敗了此前的最高水平91.6%和人類水平的91.2％。在通用語言理解評估（GLUE）基準測試（用於培訓和評估NLP系統的資源集合）上，BERT的準確率也達到80.4％。

BERT的釋出前不久谷歌還發布了AdaNet，一個結合機器學習演算法以獲得更好的預測性分析結果的開源工具，以及調查使用強化學習訓練AI代理人進行問答的研究專案ActiveQA 。

谷歌開源頂級人工智慧自然語言預處理訓練技術

獲取BERT論文原文請關注IT經理網微信公眾號ctociocom，後臺回覆：BERT

您可能也會喜歡…