想要在現實世界的機器人身上探索強化學習(RL),并非易事。
首先,你得擁有類似這樣的機器人平臺:
而像這樣的一只PR2,售價高達40萬美元(約合人民幣286萬元)。
這就足以讓很多剛剛起步,或者正想涉足RL/機器人學研究的小型實驗室望而卻步了。
不過現在,谷歌正在試圖讓這件事變得更簡單,更便宜。
比如這樣一只三指機器人:
價格僅3500美元(約合人民幣2.5萬元)。
還有這樣一只四足機器人:
價格4200美元(約合人民幣3萬元)。
并且,還有相應的開源代碼,和精心設計的基準測試作為配套。
這就是谷歌的ROBEL基準。這項研究登上了CoRL 2019。
ROBEL
ROBEL由兩只機器人組成,適用于不同的強化學習研究任務。
三指手形機器人,名為D’Claw,擅長學習靈巧操作任務。
D’Claw執行任務的過程中有三種常見的操縱行為。
旋轉,將物體旋轉到指定的角度。
以及擰緊。
四足機器人,名叫D’Kitty,是只小貓咪,擅長學習敏捷移動。
它的三種基準測試動作,是站立,定向和行走。
機器人的設計都基于現成的組件和常用的原型制作工具(3D打印或激光切割),模塊化,易于組裝,易于維護。
即使你對硬件并不在行,也僅需要幾個小時的時間,庫卡機器人何服電機維修,就能構建完成。
ROBEL還為所有這些基準測試任務提供了模擬器,有助于研究人員進行算法開發和快速原型設計。
可復現,很魯棒
聽上去便宜好用的ROBEL,到底靠不靠譜呢?
迄今為止,谷歌已經對其進行了長達14000多個小時的訓練。
實驗證明,ROBEL能夠勝任多種機器學習算法。
并且,兩個不同的實驗室分別對ROBEL進行了“試用”。僅使用ROBEL的設計文件和裝配說明,兩個實驗室都成功復現了ROBEL的兩個硬件平臺。
兩個實驗室都對自己組裝起來的ROBEL進行了基準任務測試。
兩條訓練曲線幾乎重合。也就是說,在不同地點建造的兩只機器人,機器人維修,不僅表現出了相似的訓練進度,并且最終都收斂到了同一性能水準。
還真是便宜又好貨啊。