谷歌開源頂級人工智慧自然語言預處理訓練技術
自然語言處理(NLP)是人工智慧(AI)的子類別,可用於語言翻譯、情感分析、語義搜尋等許多語言相關任務,但是這說起來容易做起來難。訓練NLP文字解析AI系統需要採購大量多源頭資料集,對研究人員來說是一項持續的挑戰:需要使用最新的深度學習模型,模仿人類大腦中神經元的行為,在數百萬甚至數十億的註釋示例中進行訓練來持續改進。
當下一種流行的NLP解決方案是預訓練,它改進了對未標記文字進行訓練的通用語言模型,以執行特定任務。谷歌本週開源來該領域的最前沿技術 – ofollow,noindex" target="_blank">Transformer雙向編碼器 (BERT)。谷歌聲稱開發人員可以在在雲端30分鐘內訓練“最先進”的NLP模型TPU(谷歌的雲託管加速器硬體),在單獨的圖形處理單元上訓練也只需數小時。
目前BERT的最新版本已經發布到 Github 上,包括預訓練的語言表示模型(英文)和構建在TensorFlow機器學習框架之上的原始碼。此外,Colab上還有一個相應的筆記本,這是Google為AI開發人員提供的免費雲服務。
BERT是深度雙向、OpenAI GPT是單向、ELMo是淺層雙向
正如Google AI的研究科學家Jacob Devlin和Ming-Wei Chang所解釋的那樣, BERT的獨特之處在於它既具有雙向性(上圖),可以從過去和未來雙向訪問上下文,並且無人監督,這意味著它可以處理沒有分類和標記的資料。 這與傳統的NLP模型(如word2vec和GloVe)相反,後者為詞彙表中的每個單詞生成單個無上下文的單詞嵌入(單詞的數學表示)。
BERT通過預先訓練來自任何語料庫生成的任務,來學習建模句子之間的關係,Devlin和Chang寫道。它建立在Google的Transformer之上,這是一種基於自我關注機制的開源神經網路架構,該機制針對NLP進行了優化。(在去年發表的一篇論文中,谷歌表明,Transformer在英語到德語和英語到法語的翻譯基準表現優於傳統模式,同時訓練需要的計算也更少。)
測試斯坦福問答資料集(SQUAD))——一個閱讀理解資料集包含一組維基百科文章提出的問題,BERT達到了93.2%的準確率,擊敗了此前的最高水平91.6%和人類水平的91.2%。在通用語言理解評估(GLUE)基準測試(用於培訓和評估NLP系統的資源集合)上,BERT的準確率也達到80.4%。
BERT的釋出前不久谷歌還發布了AdaNet,一個結合機器學習演算法以獲得更好的預測性分析結果的開源工具,以及調查使用強化學習訓練AI代理人進行問答的研究專案ActiveQA 。