有觸覺,懂策略,能互動!MIT開發出比你更靈活的搭積木大師,還發了Science子刊
搭積木可不簡單。
除了訓練小朋友的整體專案意識,這也是一個視覺、觸覺、互動和策略都需要上線的遊戲。而在眾多的搭積木遊戲中,“疊疊樂”可能是其中最有趣,難度也最高的一種。
疊疊樂,又名疊疊高,也叫疊疊木,是一款經典的木製益智積木玩具。
遊戲規則看似很簡單,從下方的積木中,抽一根往上搭。但是遊戲過程極度考驗耐性和自制力。
這個遊戲手殘黨反正是玩不了,手腳不是太靈活的小夥伴,也放棄吧。
但是,這個遊戲對MIT團隊研發的機器人來說,輕而易舉~
它是怎麼做到的呢?
首先,在硬體方面,需要一個軟齒夾鉗、一個力感測腕帶以及一個外部攝像頭,這些部件是用於觀察和感應積木塔以及積木的。
其次,當機器人小心地推動一塊積木時,計算機利用外部攝像頭和力感測腕帶分別接收視覺和觸覺反饋,然後與機器人先前做出的動作進行比較。
在此過程中還需考慮了不同動作可能產生的結果——具體來說就是能否用特定的力度,抽出特定位置的積木放在塔頂並確保積木塔不倒。機器人會實時 “學習”是否繼續推動這塊積木來防止積木塔倒塌。
遊戲視訊☟
具體來說,與國際象棋、圍棋等更依賴認知思維的任務或遊戲不同,玩疊疊樂還需要掌握物理技巧,如試探、推、拉、放置和碼齊。
這項遊戲需要互動式感知和操作,你必須去觸控積木塔才能學會何時以及如何移動積木。
整個過程很難模擬,機器人必須和現實中的積木塔進行互動來學習。 主要的困難是,如何利用物體和物理常識從相對較少的實驗中學習。
當然,MIT團隊並不止步疊疊樂遊戲, 目前開發的觸覺學習系統正應用在垃圾分類回收、組裝消費品等需要精確物理互動的任務。
相關研究細節發表在最近的《Science Robotics》期刊上。論文的第一作者是麻省理工學院的研究生Nima Fazeli。研究團隊還包括Miquel Oller,Jiajun Wu,Zheng Wu和麻省理工學院大腦和認知科學教授Joshua Tenenbaum。
論文地址: http://robotics.sciencemag.org/content/4/26/eaav3123
這項工作是開創性的,麻省理工學院機械工程系的Alberto Rodriguez評論道:“ 疊疊樂機器人展示了之前的機器人系統無法做到的事:快速學習執行任務的最優方法。它不僅利用常用的視覺反饋,還包括觸覺反饋和物理互動。”
例如,在手機生產流水線上,幾乎每一步都需要卡扣連線和螺絲固定,在這個過程中是依靠力和觸控來判斷是否正確組裝的,而不是視覺。
而這項技術的靈魂就正是是研究人員精心構建的學習模型。
推拉
在疊疊樂遊戲中,54塊長方形積木垂直交錯堆疊成18層的積木塔,每層有三塊積木,玩家輪流抽出一塊積木放在塔頂來增加積木塔的高度,但是又不能使積木塔倒下。
想讓機器人學會玩疊疊樂,傳統的做法是收集積木塊、積木塔和機器人三者之間可能發生的所有互動,這需不但要耗費大量計算資源,還需要成千上萬次抽積木的操作。
Rodriguez和他的同伴從人類認知和實際操作角度尋找到了一種更有效的資料處理方式。
這個團隊定製了一個行業標準的ABB IRB 120機械臂,在機器人能夠觸到的範圍內搭建了一個積木塔,然後開始訓練。機器人首先隨機選擇一塊積木和推動積木的位置,然後用較小的力試圖將積木推出塔外。
計算機則會在這個過程中記錄每次嘗試的視覺和力量資料,並標註是否成功。
這個機器人沒有進行成千上萬次的嘗試(包括多次重建積木塔),它只進行了大約300次的嘗試。把相似的資料和結果進行聚類分組,表示特定的積木行為。例如,一組資料可能表示很難移動的積木,另一組可能表示比較容易移動的積木,或者移動後積木塔會倒塌的積木。對於每一組資料,開發一個簡單的模型,機器人將會基於它現有的視覺和觸覺資料來預測移動一塊積木的行為。
Fazeli說:“這種聚類技術受到人類認知過程的啟發,顯著提高了機器人學習遊戲的效率。讓機器人建立資料叢集,然後學習每個叢集的模型,而不是學習一個能夠捕捉所有可能性的模型。”
堆疊
研究者用模擬器MuJoCo,在計算機模擬的疊疊樂遊戲中與其他如今最先進的機器學習演算法進行比試,從而瞭解疊疊樂機器人在現實世界中的學習方式。
Oller說:“我們把我們系統獲得的資料資訊提供給這些演算法,看它們是如何玩疊疊樂的。與我們的演算法相比,這些演算法需要搭建更大數量級的積木塔才能學會這個遊戲。”
研究團隊讓疊疊樂機器人與人類志願者進行了幾次非正式比賽。
Oller說:“我們看到積木塔倒塌之前人類能抽出幾個積木塊,我們的機器人和人類不相上下。”
但是,疊疊樂機器人在與人類玩家進行正式比賽之前還有很長的路要走。除了物理互動,疊疊樂遊戲還需要一些策略,比如抽出一塊積木,既不使積木塔倒塌又能使對手很難抽出下一塊積木。
目前,研究團隊並不致力於讓機器人獲得疊疊樂冠軍, 他們更想把這一新技能應用到其他領域。
Rodriguez說:“我們用手完成的很多工都是憑感覺,這種感覺來自力量和觸覺反饋,我們的演算法可以完成這類任務。”