機器好奇心有助於人工智慧的發展

人工智慧電子遊戲 · 發表 2018-09-27 10:49:06

摘要：感謝 superstition.cn 的投遞會學習的軟體正在改變世界，但需要監督。人類以兩種方式監督它們。一是向機器學習演算法展示描述當下任務的大量資料。例如有標記的貓和狗的圖片，讓演算法學習區分兩者。另一種監督是在高度結構化的環境中設定一個特定目標，例如在某款電子遊戲中獲得高分，...

感謝 ofollow,noindex">superstition.cn 的投遞

會學習的軟體正在改變世界，但需要監督。人類以兩種方式監督它們。一是向機器學習演算法展示描述當下任務的大量資料。例如有標記的貓和狗的圖片，讓演算法學習區分兩者。另一種監督是在高度結構化的環境中設定一個特定目標，例如在某款電子遊戲中獲得高分，再讓演算法嘗試眾多可能性，直到找到能實現目標的那一個。

這兩種「監督學習」的方法已經在人工智慧（AI）領域帶來了突破。2012 年，多倫多大學的一組研究人員用第一種方法構建了 AlexNet，這個軟體在一項競賽中識別出的影象比其最接近的競爭對手多了十分之一。2015 年，Alphabet 旗下的英國人工智慧公司 DeepMind 的研究人員用第二種方法教一個演算法玩電子遊戲雅達利（ Atari），水平超過人類。後來在圍棋上取得的勝利正源自這一成果。

這些突破為今天 AI 很多令人興奮的發展奠定了基礎。但監督學習也存在缺陷。人工指導涉及標記資料或設計虛擬環境等人工作業，成本高昂。指導完成後還不能用於其他學習。監督學習也不大現實。現實世界通常不會標記事物或為學習進展提供明確的訊號。AlexNet 和 DeepMind 的遊戲智慧體都需要幾百萬至幾十億個示例或模擬，以及消耗大量電力的強大計算機。位於巴黎的法國國家資訊與自動化研究所（Inria）的 AI 研究員皮埃爾-伊夫·烏迪耶（Pierre-Yves Oudeyer）說：「如果你打算在每次新的訓練任務中都這樣做，那麼就需要幾十個核電站專門為你服務。」

因此，AI 若要真正騰飛，還需要些別的東西。烏迪耶說，這推動研究人員開始探索人類瞭解世界的基本機制之一：好奇心。烏迪耶和其他人不再使用由人類建立的函式來訓練演算法，而是在過去 20 年裡開發人工智慧體，用它們自己內在的獎勵系統來檢視周圍的世界並收集資料。這樣的工作正開始獲得成功。

第一代「好奇心 AI」使用「預測錯誤」來激勵智慧體。該軟體會探索它需要研究的實體或虛擬環境，尋找與它的預期差異很大的東西。換句話說，它是在搜尋新奇資料。這種方法行得通，但有一個很大的缺陷。例如，觀察過往車輛的智慧體可能會沉迷於經過車輛的顏色順序，因為它對下一部車的顏色做出的預測幾乎總是錯誤的。但這樣做沒有實際用處。一個好奇的機器人如果不去學習怎麼走下樓梯，而是為了尋求資訊的刺激反覆從樓梯上滾下去，同樣也沒有意義。

解決這個問題的方法是把注意力放在智慧體的預測錯誤變化率而不是錯誤本身上。使用這種方法，機器人在剛開始觀察日出日落時預測錯誤會很多，但隨著它對一個物理系統實際屬性的認識加深，錯誤逐漸減少。將預測錯誤系統的變化率用作智慧體進入下一個任務的訊號等於給它設了一個無聊閾值。如果一個要搞清過往車輛顏色規律的機器人使用這樣一個系統，它會保持穩定的錯誤率，進而感到無聊。

烏迪耶在實際研究中嘗試了他的好奇心演算法。今年 6 月，他的研究小組在法國阿基坦地區（Aquitaine）的一些公立和私立學校對 600 名小學生開展了測試。他的構想是為每個孩子的數學學習過程建模，提供因人而異的優化練習。該系統名為 KidLearn，它把每個孩子都視為自己的好奇智慧體，調整學習內容以適應孩子的理解水平和學習進度。與其他軟體不同，KidLearn 不依賴從其他兒童那裡收集到的資料作為引導，而主要是根據孩子的好奇心來調整。烏迪耶的研究人員很快將會公佈這一系統的表現。

矽谷的研究人員也一直在研究好奇心。在最近的一篇論文中，來自加州大學伯克利分校和伊隆·馬斯克資助的非營利性研究公司 OpenAI 的迪帕克·帕沙克（Deepak Pathak）及其同事表明，儘管他們的智慧體在玩電子遊戲時沒有得到任何輸入，也沒有在被打敗或過關時得到任何訊號，好奇心驅動的學習仍然在一系列虛擬環境中運作良好。

好奇智慧體展示了一些有趣的行為。它學會了在打磚塊遊戲 Breakout 中獲得更高的分數，因為得分越高，磚塊模式越複雜，智慧體的好奇心就越能得到滿足。兩個好奇智慧體在玩乒乓球遊戲 Pong 時學會了沒完沒了地來回擊球而不得分，一直打到遊戲崩潰，因為它們發現這比獲勝更有趣。死掉也很沒意思。研究人員在最近發表的一篇論文中說：「智慧體會避免在遊戲中死掉，因為這會讓遊戲重頭開始，而開始階段它已經玩過很多次，也已經能很好地預測走向。」

還有其他方法可以賦予機器探索的衝動。舊金山優步 AI 實驗室的研究員肯尼斯·斯坦利（Kenneth Stanley）模仿了進化過程。他的系統從一組隨機演算法開始運作，從中選出一個看起來適合手頭任務的演算法，由此派生出一組演算法，最終演變出一個最適合這項工作的演算法。斯坦利指出，進化可以產生目標驅動的優化所無法產生的偶然結果。生物進化對飛行沒有明顯的好奇，但仍然演化出了鳥類。

所有這些都表明，一套更完整的學習演算法正在出現。由好奇心或進化驅動的人工智慧體可應用於學習的早期階段，也更適合缺乏大量資料的零散的環境。一旦找到有趣的東西，就可以接著進行監督學習，以確保能準確學到特定的功能。8 月，在溫哥華舉行的電子遊戲大賽中，OpenAI 用目前最先進的監督學習技術建立的 AI 智慧體在戰略遊戲 DOTA 2 中慘敗給了人類。更好奇的學習模式可能有助於 AI 玩轉游戲中的長期戰略部分，因為其中很少有獎勵訊號，也沒什麼得分變化。

「我不想死兩回，這可太無趣了。」美國理論物理學家理查德·費曼（Richard Feynman）臨終前這樣說道。這是他最後一次向好奇心致敬。他終生都在探索宇宙的內在運作方式，尋找新的事物來建模和理解。人類的這種傾向性不僅能激勵人，也能驅動機器。

機器好奇心有助於人工智慧的發展

您可能也會喜歡…