谷歌“跑腿”機器人實現遠距離導航,成功率提高 2-3 倍
僅在美國,就有 300 萬人因行動障礙而無法走出家門。能夠實現自動化遠距離導航的服務機器人可以讓行動不便的人更加獨立,如為他們運送日常用品、藥品和包裹等。研究表明,深度強化學習擅長將原始感官輸入對映到動作,例如學習抓取物體和機器人運動,但強化學習代理通常缺乏在無人類幫助下對遠距離導航所需的安全物理空間的理解,以及適應新空間的能力。
為解決這個問題,谷歌的研究人員發表三篇論文,探討了將深度強化學習與遠距離規劃相結合,以實現適應性更強的機器人自治。實驗證明,通過自動化強化學習、PRM-RL 等方法,機器人不但導航距離增大,且導航的成功率提高了 2-3 倍。
在最近的三篇論文《 使用 AutoRL 學習端到端導航行為》 、 《PRM-RL:通過結合強化學習和基於取樣的規劃實現遠距離機器人導航任務》 ,以及 《使用 PRM-RL 進行遠距離室內導航”》 中,我們通過將深度強化學習與遠距離規劃相結合來研究適應性更強的機器人自治。我們訓練本地規劃代理執行基本的導航行為,安全地通過較短距離而不會與移動的障礙物發生碰撞。本地規劃代理採用噪聲感測器觀測,例如測量障礙物距離的一維鐳射雷達,以及輸出機器人控制的線性和角速度。我們使用 AutoRL 訓練本地規劃代理進行模擬,AutoRL 是一種自動搜尋強化學習獎勵和神經網路架構的方法。儘管 10 到 15 米的距離範圍有限,但是本地規劃代理可以很好地遷移到真實機器人和新的環境中。這使我們能夠將其用作大範圍空間導航的構建塊。然後,我們構建了路線圖,其中節點是位置,且只有當本地規劃代理能夠可靠地通過噪聲感測器和控制很好地模擬真實機器人時,邊緣才能連線節點。
自動化強化學習(AutoRL)
在我們的 第一篇論文 中,我們在小型的靜態環境中訓練本地規劃代理。然而,使用標準深度強化學習演算法(例如深度確定性策略梯度(DDPG))進行訓練會帶來一些挑戰。例如,本地規劃代理的真正的目標是達成目標,這代表了稀疏的獎勵。在實踐中,這需要研究人員花費大量時間來迭代和手動調整獎勵。研究人員還需要在不確定最佳實踐的情況下對神經網路架構做出決策。最後一點,像 DDPG 這樣的演算法學習並不穩定,並且經常遭遇災難性的遺忘。
為了克服這些挑戰,我們讓深度強化學習訓練自動化。AutoRL 是一個深度強化學習演化的自動化層,它使用大規模超引數優化來搜尋獎勵和神經網路架構。AutoRL 分兩個階段,獎勵搜尋和神經網路架構搜尋。在獎勵搜尋期間,AutoRL 會同時訓練一群 DDPG 代理並迭代,每個代理的獎勵函式稍有不同,為實現本地規劃代理的真正目標——達到目的而進行優化。在獎勵搜尋階段結束時,我們會選擇可以最大機率引導代理達成目的的獎勵。在神經網路架構搜尋階段,我們重複這個過程,這次我們使用選定的獎勵並調整網路層,優化累積獎勵。
但是,這個迭代過程意味著 AutoRL 不具有樣本效率。訓練一個代理需要 500 萬個樣本;訓練 100 個代理迭代 10 次需要 50 億個樣本,這相當於訓練 32 年! 但這樣做的好處是,在 AutoRL 之後,手動訓練過程是自動化的,DDPG 不會遭遇災難性的遺忘。最重要的是,由此產生的政策質量更高——AutoRL 政策對感測器、執行器和本地化噪聲具有健壯性,並且可以很好地適用於新環境。在我們的測試環境中,最佳策略比其他導航方法的成功率高 26%。
雖然這些策略僅執行本地導航,但它們可以對移動的障礙物具有健壯性,且可以很好地遷移到真實機器人,即使在非結構化環境中也是如此。雖然他們只受到靜態障礙物模擬訓練,卻可以有效地處理移動物體。下一步,我們將把 AutoRL 政策與基於抽樣的計劃相結合,以擴大其覆蓋範圍並實現遠距離導航。
使用 PRM-RL 實現遠距離導航
基於抽樣的規劃代理通過近似機器人運動來進行遠距離導航。例如,概率路線圖(PRM)樣本機器人構成並將它們與可行的過渡連線起來,建立路線圖,捕捉機器人在較大空間中的有效運動。在我們的第二篇獲得了 ICRA 2018 服務機器人最佳論文的文章中,我們 將 PRM 與手動調整的基於強化學習的本地規劃代理(不使用 AutoRL)相結合,在本地訓練機器人,然後將其遷移到不同的環境。
首先,對於每個機器人,我們在通用模擬訓練環境中訓練本地規劃策略。接下來,我們在部署環境的平面圖上構建一個與該策略相關的 PRM,稱為 PRM-RL。對於其他我們想要在建築物中部署的所有機器人,都可以使用相同的平面圖。
為了構建 PRM-RL,只有當基於強化學習的本地規劃器(它能很好地表示機器人噪聲)能夠可靠且一致地導航時,我們才連線取樣節點。這是通過蒙特卡羅模擬完成的。生成的路線圖經調整可適用於所有型別和幾何形狀的機器人。具有相同幾何形狀,但感測器和執行器不同的機器人的路線圖將具有不同的連線性。由於代理可以在拐角處導航,因此可以包含模糊的節點。而由於感測器噪聲,靠近牆壁和障礙物的節點不太可能連線到路線圖中。在執行時,強化學習代理在路線圖路徑上導航。
使用每個隨機選擇的節點對進行 3 次蒙特卡羅模擬構建的路線圖。
第三篇論文對原始 PRM-RL 進行了一些改進。首先,我們用經過 AutoRL 訓練的本地規劃代理取代手動調整的 DDPG,從而改善遠距離導航。其次,增加了機器人在執行時使用的同步定位和對映(SLAM)地圖,作為構建路線圖的來源。由於 SLAM 地圖噪音很大,這一變化彌補了“sim2real gap”,這是機器人技術中的一種現象,即模擬訓練的代理遷移到真實機器人時效能下降。我們的模擬實驗成功率可以達到真實機器人實驗相同水平。最後,我們添加了分散式路線圖構建,從而產生了包含多達 700,000 個節點的超大規模路線圖。
我們使用 AutoRL 代理評估了該方法,使用比訓練環境大 200 倍的辦公室樓層地圖構建路線圖,在 20 次試驗中成功率至少達到 90%。我們在遠超本地規劃的距離——100 米內將 PRM-RL 與各種不同方法進行了比較。 PRM-RL 的成功率是 baseline 的 2 到 3 倍,因為節點已根據機器人的能力進行了適當的連線。
我們在多個真實機器人和真實建築工地上測試了 PRM-RL。一組測試結果如下所示,除了在非常複雜的區域附近和 SLAM 地圖的邊緣,機器人的表現都非常好。
## 結論 自主機器人導航可以大幅提高行動不便人士的獨立性。我們可以通過開發適應性強的機器人自動化來實現這一目標,包括能夠使用已有資訊在新環境中進行部署的方法。通過 AutoRL 自動學習基本的短程導航行為,並將學習的策略與 SLAM 地圖結合起來構建路線圖,我們實現了這個目標。這些路線圖由通過邊緣連線的節點組成,機器人可以遍歷這些節點。結果顯示,經過訓練的策略可以適應不同的環境,並且可以生成針對特定機器人定製的路線圖。
原文連結: https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html