會搭積木的AI,正在手眼並用地探索現實世界
編者按:本文來自微信公眾號“ 腦極體 ”(ID:unity007),作者我堂堂一個熊貓,36氪經授權釋出。
春節假休完,北上廣又開始上演小城媽寶慘變五環內社畜的慘劇。恢復到自己洗衣做飯收拾屋子的日子,年輕人們又深刻地感受到——科技不能改變生活,老媽才能。
人工智慧雖然在各種遊戲比賽中血虐人類,但在現實世界裡卻不能幫助人類“血虐”家務活。在研究更適用於複雜現實場景的機器人這件事上,我們一直在努力。
一般來說通過計算機視覺對外界進行感知,再結合資料模擬計算規劃行動,是機器人訓練研究的一個常見的方向。
比較典型的有伯克利一直在嘗試的少樣本強化學習,類似於拿一段疊被子的視訊作為訓練資料,利用獎勵機制引導AI進行學習,直到AI也學會疊被子為止。甚至還會引入“疊錯被子”的視訊作為訓練資料,教導AI如何在任務執行錯誤的過程中進行自我修正。
因為在現實世界,尤其是家庭、門店、餐廳這種極具生活化的場景中,存在有太多不確定性,很難像自動化技術那樣,規定好一套固定的流程。近年來研究較為深入的計算機視覺,也包括雷達感測、紅外感測這樣的感測技術便被利用起來了。
除去實驗室的研究以外,我們在日常生活中也能看到很多依賴視覺能力來判定現實問題的機器人,例如工廠裡通過視覺識別瑕疵品並進行分揀的機械手臂。但僅僅依賴視覺,或者鐳射雷達、紅外感測等空間感知能力,也並不能幫助機器人們做好面對現實世界的準備。
就像在電影裡常常出現這樣的情節:機器人已經發展到高度智慧化,甚至和人類無異,但在做一些類似於拿起一包牛奶,或者跟人類握手的動作時,往往會掌握不好力道。
這種情節並不是完全虛構的,對於應用視覺感測技術的機器人來說,它們能夠辨識外界事物的形狀,卻很難判斷外界事物的質地、密度和受力情況。所以在很多情況中,光有視覺技術是遠不足夠的。
守序善良且秀: 一位非人類的職業積木玩家
比如很多人都玩過,或者在美劇裡見過的桌遊“疊疊樂”——用積木條堆疊成積木塔,參與玩家在不導致塔倒塌的前提下從塔身中抽出積木條,將積木條搭到塔頂端,塔在哪位玩家的回合中倒塌,哪位玩家就輸掉比賽。
“疊疊樂”就是典型的AI一定打不過人的遊戲。因為這種遊戲考驗的不僅是策略性,還有動手能力,取出和放置積木時動作輕了重了,都可能導致遊戲失敗。不光如此,疊疊樂的遊戲過程還具有很大的不確定性,堆起積木塔時每條積木位置的輕微變化,對手玩家在拿走積木條時對其他積木位置帶來的改變,都在影響著整個積木塔的穩定性,也直接決定了玩家的下一步動作。
這種過程如果是用視覺技術理解,則需要難以想象的海量計算——堆起積木塔時每一條積木的位置、兩位玩家的每一步動作,都會造成無數的分叉結果,幾乎是不可能完成的任務。
但只需要一點點小小的不同,這個難題就被解決了。
在最近的Science Robotics期刊中,來自MIT的科研人員公佈了他們最新的研究成果——用機器手臂玩疊疊樂。
專案負責人Rodriguez提到,之所以選擇疊疊樂作為實驗物件,是因為這個遊戲中體現了機器人應用的一個重要問題——物理互動,也就是前面提到的動手能力。
為了解決物理互動問題,MIT為普通機械手臂添加了三樣東西,柔性夾鉗、有力量感測作用的腕帶和拍攝全域性畫面的攝像頭。
在進行訓練時,機械手臂每抽取一塊積木時,力量感測器就會記錄下動作的速度和力度,不斷和上一次的資料進行對比,攝像頭也會從視覺角度進行記錄,與力量資料進行對應在分層貝葉斯模型中進行計算。在進行過大概三百次遊戲後,通過兩種資料維度的配合學習,AI可以快速建立出一個聚類模型,從一個積木塔中尋找穩定性更強的、不會破壞平衡的積木條。相比試圖找到一個能應付所有情況的模型,這種在每次移動積木時都重新聚類的方法顯然要高效很多。
在測試時,機械手臂的表現也很優異,參與測試的人類志願者紛紛表示被秀一臉,機械手臂自己玩疊疊樂時的水平已經接近人類了。不過在與人類對戰時還是要落後一籌,因為人類玩家在抽取積木時會特意難為對手,在自己的回合破壞平衡性,讓積木塔很容易在下一回合倒塌。但AI還做不到這一點,在這一模型中,AI的每一步操作都是為了增強整個積木塔的穩定性——一位典型的秩序善良玩家。
這也導致了在疊疊樂上,AI還很難實現和人類對戰。不過專案負責人Rodriguez認為,他們創造這個專案本來也不是為了和人類在疊疊樂遊戲上一決高下的。
當AI開始多才多藝
BBC、CBS News和Wired等主流媒體都對這一研究結果給出了很高的評價,原因就在於這一研究在AI的觸覺刺激上突破,具有很高的現實意義。
MIT提到,目前應用在疊疊樂AI模型上的原理,同樣也可以被應用在另外一些應用機械手臂的場景中。
例如在一些數碼產品精細部分的組裝上,在擰一些很小的螺絲時,很難實現以視覺方式進行測量,只能通過觸覺進行感應。但有了“疊疊樂AI”的經驗,普通機械手臂也能通過一些簡單的改裝,增加力量感測機制在短時間完成訓練,學會以觸覺刺激為參考標誌的組裝、包裝等工作。
雖然現在自動化工業生產線也能實現在無人狀態下進行精細組裝工作,但其實現成本是非常巨大的。可能一條生產線只能完成某一部件上的一小顆螺絲,對於中小型廠商來說很難承擔得起。但擁有了觸覺刺激的機械手臂結合AI演算法,卻可以幫助類似的功能走進小型生產線甚至家庭。
其實這種結合兩種緯度資料進行AI訓練的方式並非MIT獨有,在去年我們在一些類似於視訊分析的領域中,也能看到諸如畫面分析+語音分析的多模態理解。
聚焦到機器人領域中,這幾年也有很多類似的研究。例如模擬人類手指力量感知能力的機械鋼琴手,通過操作時獲取鋼琴按鍵反彈時的資料反饋,來更精準地模擬出人類彈鋼琴時的輕與重。還有低成本的生物感應電子面板,可以貼合在機械裝置上幫助尋找施力方向。
隨著觸覺機制越來越多地被引入機器人領域,與視覺系統、紅外/鐳射雷達等其他感測模式的結合也越來越多。
可見在探索現實世界的旅途中,AI正在愈發多才多藝起來。相信當機器人也開始手眼並用時,我們距離“科技改變生活”的未來也越來越近了