給我一個開頭就能寫故事， OpenAI的新型多功能AI模型GPT-2

OpenAI · 發表 2019-02-16 15:59:24

摘要： OpenAI研究人員演示了一種新的AI模型，稱為GPT-2，能夠生成連貫的文字段落而無需任何特定任務的培訓。換句話說，給它一個故事的第一行，它就會寫出生成剩下的部分。除了生成文章外，它還可以執行基本的閱讀理解，摘要問答。 GPT-2是一種無監督的語言模型，包含15億個引數，並在800萬個網...

OpenAI研究人員演示了一種新的AI模型，稱為GPT-2，能夠生成連貫的文字段落而無需任何特定任務的培訓。換句話說，給它一個故事的第一行，它就會寫出生成剩下的部分。除了生成文章外，它還可以執行基本的閱讀理解，摘要問答。

GPT-2是一種無監督的語言模型，包含15億個引數，並在800萬個網頁的資料集上進行訓練。 “GPT-2受過簡單訓練，能夠預測40GB網際網路特定器中的下一個字”。 OpenAI團隊表示，"它優於在特定領域（如維基百科，新聞或書籍）上培訓的其他語言模型，因為它不需要使用這些特定領域的培訓資料集。"

對於與語言相關的任務，例如問答，閱讀理解和總結，GPT-2可以直接從原始文字中學習這些任務，並且不需要任何訓練資料。 OpenAI團隊表示GPT-2模型是“類變色龍”，並且很容易適應輸入文字的樣式和內容。

但是，團隊觀察到模型中存在某些失敗因素，例如重複文字，世界建模失敗和不自然的主題切換。找到一個好的樣本取決於模型對該樣本的上下文的熟悉程度。例如，當提示模型具有“資料中高度代表性”的主題時，比如麥莉•賽勒斯(Miley Cyrus)、《指環王》(Lord of the rings)等，它能夠在50％的時間內生成合理的樣本。另一方面，在技術含量高或內容複雜的情況下，該模型表現不佳。

OpenAI團隊已經明確指出，它設想在開發人工智慧寫作助理，高階對話代理，語言之間無監督翻譯和增強語音識別系統時使用GPT-2。它還指出了GPT-2的潛在濫用，因為它可用於生成誤導性新聞文章，並自動化在社交媒體上大規模生產虛假和網路釣魚內容。

由於對這種濫用語言生成模型的擔憂，OpenAI決定釋出一個 “小”版本的GPT-2及其取樣程式碼和研究論文供研究人員進行試驗。資料集，培訓程式碼或GPT-2模型權重已被排除在該版本之外。

OpenAI團隊表示，此釋出策略將為他們和整個AI社群提供時間來更深入地討論此類系統的含義。它還希望政府採取措施監測人工智慧技術的社會影響，並跟蹤這些系統的能力進展。 OpenAI團隊表示:“如果繼續努力，這些努力將為人工智慧實驗室和政府在更大範圍內就出版決策和人工智慧政策做出決定提供更好的證據基礎。”

公眾對此訊息的反應是積極的，然而，並非所有人都對OpenAI的釋出策略感到滿意，並認為這一舉動標誌著“封閉人工智慧”，並傳播了“對人工智慧的恐懼”。

有關更多資訊，請檢視官方OpenAI GPT-2部落格文章。