推特800贊，DeepMind強化學習綜述：她可以很快，但快從慢中來

強化學習 · 發表 2019-05-03 13:14:12

摘要：栗子發自凹非寺量子位報道 | 公眾號 QbitAI 能下圍棋、能打刀塔、能玩星際…… 深度強化學習 (DRL) 就快稱霸世界了。但業界一直有種常見的擔憂：強化學習 ( RL ) 太慢。人類一兩盤就能學會的遊戲，AI可能要和遊戲環境互動上億次才能解...

栗子發自凹非寺

量子位報道 | 公眾號 QbitAI

能下圍棋、能打刀塔、能玩星際…… 深度強化學習 (DRL) 就快稱霸世界了。

但業界一直有種常見的擔憂：

強化學習 ( RL ) 太慢。人類一兩盤就能學會的遊戲，AI可能要和遊戲環境互動 上億次 才能解鎖。樣本效率低，模擬不出人類學習的過程。

現在，DeepMind團隊用新近的研究成果總結，來告訴大家 這種擔憂不值得 ：

深度強化學習已經有了非常快速且靈活的技術。

並且，從AI領域誕生的方法，也能為人類的 心理學 和 神經科學 帶來新的理解。

這篇深度強化學習綜述，已經獲得了推特觀眾的799贊。

為什麼會慢

最近五年，是DRL爆發的時期。一開始，就像人們批判的那樣，演算法的確學得很慢。

但要讓它快起來，首先要知道為什麼慢。

DeepMind舉出了兩個主要原因：

一是 增量式的引數更新 (Incremental Parameter Adjustment) 。最初的演算法，從輸入的周圍環境，到輸出的AI動作之間，是靠梯度下降來完成對映的。

在這個過程中，每個增量都需要非常小，才不至於讓新學到的資訊，把之前學到的經驗覆蓋了 (這叫做“災難性干擾”) 。如此一來，學習過程便十分緩慢。

二是 弱歸納偏置 (Weak Inductive Bias) 。任何學習過程，都要面臨“偏見-方差權衡”。

所謂偏見，就是一開始限定好一些可能的結果，AI從裡面找出自己想要的那一種。限定越窄，AI就可以只考慮為數不多的可能性，更快地得出結果。

弱歸納偏置，就需要考慮更多的可能性，學習也就慢一些。重要的是，通用神經網路都是偏見極低的系統，他們有非常大量的引數，可以用來擬合大範圍的資料。

DRL，就是把深度網路用到RL裡面。所以，最初樣本效率必然是極低，需要大量資料來學習。

快從慢中來

不過，從最近的研究上看，這兩個問題都是有辦法解決的。

DeepMind舉出了兩種方法，對症下藥。

首先，解決引數增量的問題：

方法是 情節性深度強化學習 (Episodic DRL) 。就是給過去發生的事件，保留一個明確的記錄 (Explicit Record) 。這個記錄會作為依據，指導AI做出新的決策。

它與機器學習裡“ 非引數 ”的方法異曲同工，也很像“基於示例 (Exemplar-Based) ”的 心理學原理 。

當遇到一個新事件，該做新決策的時候，就把 當前事件 的內部表徵 (Internal Representation) ，跟儲存的各種 過去事件 對比一下。匹配分數最高的中選。

和增量方法的區別在於：在這裡，從過去的事件裡學到的資訊， 都可以立刻派上用場 ，由此加速了學習過程。

但注意， 快速的情節學習，是以緩慢的增量學習為基礎的 。

因為，在把當前事件和過去事件的表徵作對比之前，AI先要學會這些表徵： 連線權重 (Connection Weights) 的學習，依然要靠增量來進行，就像傳統的DRL演算法那樣。

慢慢學好表徵之後，才能開始迅猛地奔跑。

DeepMind說，“快從慢中生”並不是什麼巧合，在心理學和神經科學上的體現，不亞於AI領域 (這個部分，大家可以自行探索原文) 。

然後，再解決歸納偏置的問題：

首先限定好一個狹窄的範圍，再讓AI去探索。道理都懂，可怎麼知道應該限定在哪裡？

答案是，借鑑過去的經驗。

打個比方，第一次用智慧手機的人類，可能從前還用過其他的裝置。那裡的經驗，就可以幫他很快學會智慧手機的用法。如果沒有那些經驗，就只能廣泛嘗試，影響學習速度了。

這個思路，也是從心理學上來的，叫做“學著學習 (Learning to Learn)”。

心理學家Harry Harlow就曾經用猴子來做實驗：給猴子兩個不熟悉的物體，一個下面放食物，一個不放。換兩個物體，再換兩個……久之猴子就知道，一邊有食物一邊沒有，不管物體是什麼，不管左邊有還是右邊有。

回到AI上來，用過去的經驗來加速學習，在機器學習裡叫做 元學習 (Meta-Learning) 。

Wang與Duan帶領的兩項研究，幾乎是同時發表。都把這樣的原理用在了深度強化學習上，就是 元強化學習 (Meta RL) 。

一個RNN是用許多互相關聯的RL任務來訓練的。

RNN的權重慢慢調整，然後可以吸取各種RL任務裡面的共同點，改變網路的設定。原本，它沒辦法做到快速改變，來支援任何一個單一任務。

重點來了，從RNN的活動動態 (Activity Dynamics) 中，可以 生出一個獨立的RL演算法 ，根據過往的任務，快速解決新任務。

一個RL演算法，能生出另一個RL演算法，這就是元強化學習。

像情節性RL一樣，元RL也涉及了快速和慢速之間的聯絡：

RNN中的連線，是在不同RL任務的學習中緩慢更新的，建立起不同任務之間共同的部分，把它內建到網路裡去。

讓這個RNN，來實現新的RL演算法，就可以快速搞定各種情況了。畢竟，已經有了慢速學習的歸納偏置做基礎 (就像人類使用智慧手機之前，已經用過其他裝置那樣)。

依然，慢是快的前提。

當然，情節性DRL可以和元RL合在一起用，相輔相成。

在情節性的元強化學習裡，元學習是在RNN裡實現的，不過上面疊加了一個情節記憶系統，作用是恢復RNN裡的活動模式 (Patterns of Activity) 。

就像情節性RL一樣，情節記憶會對各種過去的事件進行編目，可以查詢。

但決策過程不一樣，不是按照匹配分數來選擇下一步的動作。而是和RNN儲存好的活動模式，聯絡起來。

這些模式非常重要，通過RNN，它們可以總結出智慧體學到的東西。

當智慧體遇到了類似過去的情況，就會在從前的經驗中，恢復一些隱藏的activations，讓之前學過的資訊立即派上用場，影響當前的策略。

這就叫“ 情節性元強化學習 ”，可以進一步加快強化學習的速度。

慢慢地，人們開始減輕對強化學習演算法的擔憂；並重新開始相信，這樣的AI可以模擬人類的學習過程。

傳送門

不知未來，不斷加速的強化學習，還能在哪些領域超越人類呢？

綜述原文傳送門：

https://www.cell.com/action/showPdf?pii=S1364-6613%2819%2930061-0

— 完 —

小程式|get更多AI資訊與資源

加入社群

量子位AI社群開始招募啦，量子位社群分：AI討論群、AI+行業群、AI技術群；

歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“微信群”，獲取入群方式。（技術群與AI+行業群需經過稽核，稽核較嚴，敬請諒解）

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

喜歡就點「在看」吧 !