PlaNet,使用影象就能瞭解世界的人工智慧代理
Google AI團隊與DeepMind合作,上週宣佈了一個名為PlaNet的新的開源“Deep Planning”網路。 PlaNet是一個人工智慧代理,它只使用影象輸入來學習世界模型,並使用這些模型進一步計劃以獲得經驗。
PlaNet可以輕鬆解決各種基於影象的控制任務,並與先進的無模型代理商競爭。 Google AI團隊還發布了研究社群的原始碼,以進一步探索和構建PlaNet。
PlaNet如何運作?
PlaNet依賴於隱藏或潛在狀態的緊湊序列。這被稱為潛在動力學模型,其中不是直接從一個影象預測到下一個影象,而是首先預測潛在狀態前向。 “通過以這種方式壓縮影象,代理可以自動學習更多抽象的表示,例如物件的位置和速度,使得更容易預測前進,而不需要一路生成影象”,Google AI團隊表示。
在隱態動力學模型中,輸入影象的資訊通過編碼器網路整合到隱態中。然後將隱藏狀態進一步向前預測,以預測未來的影象和獎勵。對於規劃,將過去的影象編碼成當前的隱藏狀態,然後預測多個動作序列的未來獎勵。
PlaNet代理在不同的基於影象的控制任務上接受培訓
PlaNet代理經過各種基於影象的控制任務的培訓。這些任務帶來了不同的挑戰,例如部分可觀察性,用於接球的稀疏獎勵等。此外,訓練單個PlaNet代理來解決所有六個任務。在不對超引數進行任何更改的情況下,此多工代理能夠實現與各個代理相同的平均效能。
“我們提倡進一步研究,重點是學習更高難度任務的精確動力學模型,例如3D環境和現實世界的機器人任務。我們對基於模型的強化學習開闢的可能性感到興奮“,Google AI團隊表示。
有關更多資訊,請檢視 官方Google AI PlaNet公告 。
Linux公社的RSS地址 : https://www.linuxidc.com/rssFeed.aspx
本文永久更新連結地址: https://www.linuxidc.com/Linux/2019-02/156974.htm