|
2023 年 8 月,Meta 和 CMU 團隊聯(lián)合推出了通用機器人智能體 RoboAgent。不同于 DeepMind
的 RT 系列模型采用了大規(guī)模機器人數(shù)據(jù)集進行訓練,考慮到機器人在現(xiàn)實世界中的訓練和部署
效率問題,Meta 將數(shù)據(jù)集限制到了 7500 個操作軌跡中,并基于此讓 RoboAgent 實現(xiàn)了 12 種不
同的復雜技能,包括烘焙、拾取物品、上茶、清潔廚房等任務,并能在 100 種未知場景中泛化應
用。
構建一個可以泛化到許多不同場景的機器人智能體需要一個覆蓋面足夠廣的數(shù)據(jù)集。例如 RT-1
就采用了超過 13 萬條機器人操作軌跡數(shù)據(jù)來進行訓練,RoboAgent 則著眼于在有限的數(shù)據(jù)下提
G機器人學習系統(tǒng)的效率,而較少的數(shù)據(jù)通常會導致模型過擬合。RoboAgent的數(shù)據(jù)集共有7500
條數(shù)據(jù),分別在 4 個廚房場景中采集,包含 12 個技能,38 個任務�;诖诵◇w量的數(shù)據(jù),Meta
采用了全自動的數(shù)據(jù)增廣來對數(shù)據(jù)集進行信息擴充,通過 Meta 提出的“分割一切模型”
(Segment Anything Model,SAM)來對圖像中的被操作物體和背景進行分割,然后分別對被操
作對象和背景進行修改,以達到數(shù)據(jù)集擴充的目的。
RoboAgent 帶來了數(shù)據(jù)效率的提升。Meta 提出了 MT-ACT——多任務動作分塊 Transformer 這
一學習框架,與一些常見的訓練算法框架相比,RoboAgent 體現(xiàn)出了更G的樣本效率,并且在多
個泛化層面上都有出色表現(xiàn)。Meta 對泛化J別進行了可視化,L1 表示物體姿態(tài)變化,L2 表示多
樣的桌面背景和干擾因素,L3 表示新穎的技能-物體組合。MT-ACT 的表現(xiàn)顯著優(yōu)于其他算法,
特別是在更困難的泛化層次(L3)上。
|