無需任何神經網路!Uber AI 在 Atari 遊戲蒙特祖瑪的復仇中表現遠超人類
AI 前線導讀:玩過《蒙特祖瑪的復仇》(Montezuma’s Revenge)這款視訊遊戲的玩家可能知道它有多難,更不用說對 AI 來說有多難。這款遊戲光是第一關就有 24 個佈滿了陷阱、繩索、梯子、敵人和隱藏鑰匙的房間。最近,來自谷歌 DeepMind 的 OpenAI 和其他公司的研究人員設法讓 AI 系統取得了 ofollow,noindex">令人矚目的成績 ,但在本週,Uber 的最新研究更是讓這個標準再度提高。
更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)
在 Uber 的 部落格文章 中(論文即將發表),Uber 的 AI 科學家介紹了 Go-Explore,這是一個被稱為質量多樣性的 AI 模型,能夠在《蒙特祖瑪的復仇》中獲得超過 2,000,000 的最高分,平均分數超過 400,000(目前最先進的模型平均分和最高分分別為 10,070 和 17,500)。此外,在測試中,該模型能夠“穩定地”闖過第 159 關。
此外,同樣值得注意的是,研究人員聲稱,Go-Explore 是第一個在 Atari 2600 遊戲《陷阱》中獲得高於 0-21,000 分的人工智慧系統,“遠遠超過”人類的平均表現。
“所有人都說,Go-Explore 將《蒙特祖瑪的復仇》和《陷阱》的最好成績提升了兩個數量級,”Uber 團隊寫道。 “它不需要人類演示也可以超過《蒙特祖瑪的復仇》模仿學習演算法的最高效能,後者必須要通過人類的演示才能得到解決方案…Go-Explore 與其他深度強化學習演算法完全不同。我們認為它可以在各種重要的、具有挑戰性的問題上取得快速進展,特別是機器人技術。”
大多數 AI 模型發現《蒙特祖瑪的復仇》難以克服的問題在於“少量的獎勵”;AI 模型闖過一關需要通過為數不多的反饋來學習複雜的任務。更復雜的是,遊戲給出的反饋很少並通常具有欺騙性,這意味著它會鼓勵 AI 在短期內最大限度地獲得獎勵,而不是朝著全域性目標努力(例如,反覆擊中敵人而不是爬上繩索靠近出口)。
解決稀疏獎勵問題的一種方法是增加對探索行為的獎勵,也被稱為“內在動機”(IM)。但即便是使用 IM 的模型也在《蒙特祖瑪的復仇》和《陷阱》中步履維艱——研究人員認為,這歸咎於一種被稱為“分離效應”(*detachment*)的現象。演算法基本上會“忘記”它們之前到過但有希望通向新的地點或狀態的區域,因此不會返回這些地方繼續探索。結果,AI 代理會停止探索,或者不再探索之前已到達過區域的附近。
“想象一下 AI 代理在兩個迷宮的入口處。它可能隨機開始探索西邊的迷宮,而 IM 可能會讓它探索一半,”研究人員寫道。“但從某一個時刻開始,AI 代理可能開始探索東邊的迷宮,並獲得很多獎勵。在完全探索完東邊的迷宮之後,它會記不清之前在西邊的迷宮裡探索到的有希望(到達新的地方或狀態)的邊界...... 更糟糕的是,它已經探索過通往西部迷宮的道路,所以就沒有(或很少)內在動機去再去探索一番。”
對此,研究人員提出了一個分為兩階段的解決方案:探索和強化。
探索階段
在探索階段,Go-Explore 建立了不同遊戲狀態的存檔(單元),以及各種軌跡或分數。它選擇、返回並探索一個單元,在所有它訪問過的單元中,如果新的軌跡更好(即得分更高),則變換軌跡。
上述單元僅僅是下采樣的遊戲幀——由 11*8 個 8 畫素強度的灰度影象組成,幀數不足以保證進一步探索合並。
探索階段具有許多優勢。由於有了上述存檔,Go-Explore 能夠記住並返回“有前途”的區域進行探索。通過在探索之前首先返回到單元(載入遊戲狀態),避免了 AI 過度探索容易到達的地方。因為 Go-Explore 能夠訪問所有可達狀態,研究人員稱它不太容易受到欺騙性獎勵函式的影響。
另一個因素進一步提高了 Go-Explore 的穩健性:領域知識。該模型可以輸入它正在學習的單元的資訊,在《蒙特祖瑪的復仇》中包括直接從 x 和 y 位置等畫素提取的統計資料,當前房間和獲得鑰匙的數量。
強化階段
強化階段起到防禦噪音的作用。如果 Go-Explore 的解決方案對噪聲不穩健,它會使深度神經網路更穩健——使用模仿學習演算法,模擬人類大腦中神經元行為的數學函式層。
測試結果
在測試中,Go-Explore 在《蒙特祖瑪的復仇》中到達的房間數平均是 37,通過第一關的機率為 65%。這相比之前的最高水平還要更好,此前探索的房間數平均為 22。
目前,Go-Explore 採用了一種稱為模仿學習的技術,它可以從人類演示中學習策略,或者在第一階段自動生成。
100%由 Go-Explore 生成的策略可以幫助它闖過《蒙特祖瑪的復仇》第一關,平均得分為 35,410,超過之前的 10,070 分達三倍,略高於人類專家 34,900 分的平均水平。
在加入領域知識後,Go-Explore 的表現更加出色。它找到了 238 個房間,平均闖過 9 關。經過強化階段後,它平均可以闖到第 29 關,平均分為 469,209。
研究人員寫道,“Go-Explore 的最高分數遠高於人類創造的世界紀錄——1,219,200 分,甚至達到嚴格意義上的'超人類表現'。這讓《蒙特祖瑪的復仇》中經過人類演示解決方案的傳統強化學習演算法和模仿學習演算法黯然失色。”
相比之下,《陷阱》需要更多的探索,獎勵也更稀疏(32 個獎勵分散在 255 個房間),但 Go-Explore 能夠在只知道螢幕上的位置和房間號的情況下,在探索階段探索所有 255 個房間,並得到 60,000 的分數。
通過在探索階段中獲得的軌跡,研究人員設法強化了得分超過 21,000 的軌跡,這個分數超過現有所有最先進的演算法和人類的平均水平。
Uber 團隊表示,未來他們將做更多的工作,讓模型具有“更智慧”的探索策略和學習表徵。
“值得注意的是,Go-Explore 在探索過程中採取的行動是完全隨機的(沒有任何神經網路!),即使應用於狀態向量空間非常簡單的離散化也是有效的,”研究人員寫道。“這麼簡單的探索方式卻能獲得如此大的成功,這表明,記憶和探索良好的進階步驟是有效探索的關鍵,即使是最簡單的探索,也可能比尋找新狀態,並表示這些狀態的現代技術更有用。”
原文連結:
https://venturebeat.com/2018/11/26/uber-ai-reliably-completes-all-stages-in-montezumas-revenge/