推特800贊,DeepMind強化學習綜述:她可以很快,但快從慢中來
栗子 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
能下圍棋、能打刀塔、能玩星際…… 深度強化學習 (DRL) 就快稱霸世界了。
但業界一直有種常見的擔憂:
強化學習 ( RL ) 太慢。人類一兩盤就能學會的遊戲,AI可能要和遊戲環境互動 上億次 才能解鎖。樣本效率低,模擬不出人類學習的過程。
現在,DeepMind團隊用新近的研究成果總結,來告訴大家 這種擔憂不值得 :
深度強化學習已經有了非常快速且靈活的技術。
並且,從AI領域誕生的方法,也能為人類的 心理學 和 神經科學 帶來新的理解。
這篇深度強化學習 綜述 ,已經獲得了推特觀眾的799贊。
為什麼會慢
最近五年,是DRL爆發的時期。一開始,就像人們批判的那樣,演算法的確學得很慢。
但要讓它快起來,首先要知道為什麼慢。
DeepMind舉出了兩個主要原因:
一是 增量式的引數更新 (Incremental Parameter Adjustment) 。最初的演算法,從輸入的周圍環境,到輸出的AI動作之間,是靠梯度下降來完成對映的。
在這個過程中,每個增量都需要非常小,才不至於讓新學到的資訊,把之前學到的經驗覆蓋了 (這叫做“災難性干擾”) 。如此一來,學習過程便十分緩慢。
二是 弱歸納偏置 (Weak Inductive Bias) 。任何學習過程,都要面臨“偏見-方差權衡”。
所謂偏見,就是一開始限定好一些可能的結果,AI從裡面找出自己想要的那一種。限定越窄,AI就可以只考慮為數不多的可能性,更快地得出結果。
弱歸納偏置,就需要考慮更多的可能性,學習也就慢一些。重要的是,通用神經網路都是偏見極低的系統,他們有非常大量的引數,可以用來擬合大範圍的資料。
DRL,就是把深度網路用到RL裡面。所以,最初樣本效率必然是極低,需要大量資料來學習。
快從慢中來
不過,從最近的研究上看, 這兩個問題都是有辦法解決的。
DeepMind舉出了兩種方法,對症下藥。
首先,解決引數增量的問題:
方法是 情節性深度強化學習 (Episodic DRL) 。就是給過去發生的 事件 ,保留一個明確的記錄 (Explicit Record) 。這個記錄會作為依據,指導AI做出新的決策。
它與機器學習裡“ 非引數 ”的方法異曲同工,也很像“基於示例 (Exemplar-Based) ”的 心理學原理 。
當遇到一個新事件,該做新決策的時候,就把 當前事件 的內部表徵 (Internal Representation) ,跟儲存的各種 過去事件 對比一下。匹配分數最高的中選。
和增量方法的區別在於:在這裡,從過去的事件裡學到的資訊, 都可以立刻派上用場 ,由此加速了學習過程。
但注意, 快速的情節學習,是以緩慢的增量學習為基礎的 。
因為,在把當前事件和過去事件的表徵作對比之前,AI先要學會這些表徵: 連線權重 (Connection Weights) 的學習,依然要靠增量來進行,就像傳統的DRL演算法那樣。
慢慢學好表徵之後,才能開始迅猛地奔跑。
DeepMind說,“快從慢中生”並不是什麼巧合,在心理學和神經科學上的體現,不亞於AI領域 (這個部分,大家可以自行探索原文) 。
然後,再解決歸納偏置的問題:
首先限定好一個狹窄的範圍,再讓AI去探索。道理都懂,可怎麼知道應該限定在哪裡?
答案是,借鑑過去的經驗。
打個比方,第一次用智慧手機的人類,可能從前還用過其他的裝置。那裡的經驗,就可以幫他很快學會智慧手機的用法。如果沒有那些經驗,就只能廣泛嘗試,影響學習速度了。
這個思路,也是從心理學上來的,叫做“學著學習 (Learning to Learn)”。
心理學家Harry Harlow就曾經用猴子來做實驗:給猴子兩個不熟悉的物體,一個下面放食物,一個不放。換兩個物體,再換兩個……久之猴子就知道,一邊有食物一邊沒有,不管物體是什麼,不管左邊有還是右邊有。
回到AI上來,用過去的經驗來加速學習,在機器學習裡叫做 元學習 (Meta-Learning) 。
Wang與Duan帶領的兩項研究,幾乎是同時發表。都把這樣的原理用在了深度強化學習上,就是 元強化學習 (Meta RL) 。
一個RNN是用許多互相關聯的RL任務來訓練的。
RNN的權重慢慢調整,然後可以吸取各種RL任務裡面的共同點,改變網路的設定。原本,它沒辦法做到快速改變,來支援任何一個單一任務。
重點來了 ,從RNN的活動動態 (Activity Dynamics) 中,可以 生出一個獨立的RL演算法 ,根據過往的任務,快速解決新任務。
一個RL演算法,能生出另一個RL演算法,這就是元強化學習。
像情節性RL一樣,元RL也涉及了快速和慢速之間的聯絡:
RNN中的連線,是在不同RL任務的學習中緩慢更新的,建立起不同任務之間共同的部分,把它內建到網路裡去。
讓這個RNN,來實現新的RL演算法,就可以快速搞定各種情況了。畢竟,已經有了慢速學習的歸納偏置做基礎 (就像人類使用智慧手機之前,已經用過其他裝置那樣)。
依然,慢是快的前提。
當然,情節性DRL可以和元RL合在一起用,相輔相成。
在情節性的元強化學習裡,元學習是在RNN裡實現的,不過上面疊加了一個情節記憶系統,作用是恢復RNN裡的活動模式 (Patterns of Activity) 。
就像情節性RL一樣,情節記憶會對各種過去的事件進行編目,可以查詢。
但決策過程不一樣,不是按照匹配分數來選擇下一步的動作。而是和RNN儲存好的活動模式,聯絡起來。
這些模式非常重要,通過RNN,它們可以總結出智慧體學到的東西。
當智慧體遇到了類似過去的情況,就會在從前的經驗中,恢復一些隱藏的activations,讓之前學過的資訊立即派上用場,影響當前的策略。
這就叫“ 情節性元強化學習 ”,可以進一步加快強化學習的速度。
慢慢地,人們開始減輕對強化學習演算法的擔憂;並重新開始相信,這樣的AI可以模擬人類的學習過程。
傳送門
不知未來,不斷加速的強化學習,還能在哪些領域超越人類呢?
綜述原文傳送門:
https://www.cell.com/action/showPdf?pii=S1364-6613%2819%2930061-0
— 完 —
小程式|get更多AI資訊與資源
加入社群
量子位AI社群開始招募啦,量子位社群分:AI討論群、AI+行業群、AI技術群;
歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“微信群”,獲取入群方式。(技術群與AI+行業群需經過稽核,稽核較嚴,敬請諒解)
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
喜歡就點「在看」吧 !