本日,会做一大桌子菜的斯坦福机器人Mobile ALOHA刷屏全网。
滑蛋虾仁、干贝烧鸡、蚝油生菜,色喷鼻香味俱全,看着很诱人。
就拿滑蛋虾仁这道菜来说,Mobile ALOHA在烧水的过程中先打上3颗鸡蛋,然后把虾仁放到水中焯熟,平底锅倒入鸡蛋液再加入虾仁,搅拌几下,一道菜完成了。

再看干贝烧鸡的制作过程。
首先,将去骨鸡腿肉煎至两面金黄,再加入干贝等调料之后,闷个20分钟即可。
末了摆盘时,再撒上一小撮葱花,完美。
至于蚝油生菜,机器人「大厨」的基操也是非常娴熟。
乃至,还能切蒜末。
网友看后纷纭表示,我们切实其实生活在未来!
用不了多久快餐店做汉堡的事情要全面被机器人取代!
就连Pytorch之父夸奖道,很酷的新家机器人平台,很高兴看到更多的事情在这个方向上!
这个由斯坦福三人团队研发的全新移动机器人Mobile ALOHA,可以通过模拟学习,实行各种繁芜的任务。
它不仅可以自主操作,还可以支持全身远程操控。
值得一提的是,机器人的本钱仅为32000美元(约22万),乃至软件和硬件全部开源。
论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf
研究职员每个任务只用了50个演示,便让Mobile ALOHA机器人始终如一地做一件事,比如连续9次擦拭洒在桌子上的葡萄酒,连续5次乘坐电梯。
它还可以在受滋扰的情形下,把锅放入碗柜。即便是演习数据中看不到的椅子,也能够摆正。
50个演示如何就让机器人拥有如此强大的学习能力?
作者阐明关键在于,利用静态ALOHA数据共同演习模拟学习算法。这能持续提高性能,尤其是在须要精确操作的任务中。
再来看一波Mobile ALOHA炫酷的演示吧!
洗濯平底锅:
和人击掌:
炒虾仁:
此外,还可以遥控Mobile ALOHA完成一些更加风雅的事情。
比如把纸抽出来擦玻璃。
以及用笤帚扫地等等。
机器人元年强势开局
2024年还没到来之前,许多大佬都在预测机器人便是今年除了大模型,另一件主要的研究领域。
没错,2024年将会是机器人元年。
一样平常来说,开拓通用机器人一个非常有出息的方法是,从人类供应的演示中进行模拟学习。
这种「行为克隆」可以让机器人学习各种原始的技能,从大略的拾放操作,到更风雅的操作等等。
然而,现实生活中许多任务,都须要全身折衷的机动性,以及机动操作,而非单独的移动或操作行为。
这篇论文中,作者研究了将「模拟学习」扩展到须要双臂移动机器人全身掌握的任务可行性。
当前,有两个紧张成分阻碍了「模拟学习」在双臂机器人移动操作中的广泛运用。
一是,缺少即插即用的「全身远程操控硬件」。
如果购买现成的,双臂移动操作器本钱会很高,比如PR2和TIAGo这样的机器人价格超过20万美元。为了在这些平台上实现远程操控,额外的硬件和校准也是必要的
二是,之前的机器人学习研究中,尚未证明对付繁芜任务的高性能双臂移动操作。
在本文中,研究职员试图办理将「模拟学习」运用于双臂移动操作的寻衅。
在硬件方面,作者引入了机器人Mobile ALOHA,一个低本钱的全身遥操作系统,用于网络双臂移动操作数据。
通过将其安装在轮式底座上,Mobile ALOHA扩展了原始ALOHA的能力,即低本钱和机动的双人木偶操纵设置。
然后,用户将身体栓在系统上,反向驱动轮子,以便底座移动。
当用户双手掌握ALOHA时,底座可以独立移动。研究职员同时记录底座速率数据和手臂操纵数据,形成一个全身远程操控系统。
本钱只需3万刀
值得一提的是,斯坦福团队在打造Mobile ALOHA的所有本钱仅用了3万美元。
在详细的机器人设计中,它们综合考虑了四个关键的成分:
- 移动:系统的移动速率可与人类行走的速率相媲美,大约每秒1.42米。
- 稳定性:当操作重型家用物品,如锅和橱柜时,能够保持稳定。
- 全身远程操控:所有自由度都可以同时遥操作,包括手臂和移动底座。
- 不受束缚:机载电源和打算
如下图所示,可以清楚地看到Mobile ALOHA的技能规格。
Mobile ALOHA有2个腕部摄像头,和1个顶部摄像头,并配有机载电源和打算。
其余,远程操作装置可以拆除,Mobile ALOHA自主实行时只利用2个ViperX 300。两只手臂的最低/最高高度分别为65厘米/200厘米,并从底座伸出100厘米。
研究职员选择AgileX Tracer AGV(Tracer)作为了移动底座,这是一个专为仓库物流设计的。
其移动速率可以达到1.6m/s,靠近人类的均匀步辇儿速率。它的最大有效载荷为100千克,高度为17毫米。
值得一提的是,Tracer在美的售价为7000美元,比同等速率和有效载荷的Clearpath的AGV便宜5倍多。
然后,研究职员试图在Tracer移动底座和ALOHA机器臂的根本上设计一个全身远程操控系统,即一个可以同时掌握底座和两个机器臂的远程操控系统。
而将操作员的腰部拴在移动底座上的设计是最大略直接的办理方案,这样可以反向驱动车轮,而车轮在扭矩关闭时摩擦力非常小。
为了改进人体工程学和扩大事情空间,团队还安装了4个ALOHA手臂都面向前,不同于原始面向内的ALOHA手臂。
此外,为了让Mobile ALOHA不受束缚,作者在底部配置了1.26千瓦时重14公斤的电池。同时还可以起到平衡浸染,避免翻到。
在数据网络和推理过程中的所有打算都在一台消费级条记本电脑上进行,该条记本电脑配有Nvidia 3070ti GPU (8gb VRAM)和 Intel i7-12800H。
以上便是Mobile ALOHA设计的主要组件。
一些开拓细节材料价格一览有兴趣的小伙伴可以查看他们的官方文档:https://docs.google.com/document/d/1_3yhWjodSNNYlpxkRCPIlvIAaQ76Nqk2wsqhnEVM6Dc/edit
协同学习,提升「模拟学习」性能
硬件得到了,接下来便是利用数据进行协同演习。
论文中,研究职员利用一个协同演习管道,利用现有的静态ALOHA数据集,以改进模拟学习在移动操作,特殊是双手臂操作的性能。
静态ALOHA数据集统共有825个演示任务,包括密封袋子、拿起叉子、包装糖果、撕纸巾、打开带盖塑料杯、玩乒乓球、利用咖啡机、翻转铅笔、固定魔术贴电缆、装上电池和操作螺丝刀。
然后,研究职员选择了7个任务,让Mobile ALOHA去完成。
对付机器人须要清理洒在桌子上红酒的任务,须要机动性和双手灵巧性。
详细来说,机器人须要首先导航到水龙头,拿起毛巾,然后导航回到桌子。
然后一只手臂举起羽觞,另一只手臂须要用毛巾擦拭桌子和杯底。这个任务在静态ALOHA中是不可能完成的,单臂移动机器人须要更多的韶光来完成。
对付炒虾仁来说,机器人须要将一个生虾两面煎熟,然后把它放进碗里。
机动性和双手灵巧性也是这项任务的必要条件:机器人须要从灶台移动到厨房台,用铲子翻动虾仁,而另一只手臂还需倾斜平底锅。
这项任务哀求比擦酒精度更高,由于翻转半熟的虾须要更高的精度。
同样,对付洗濯平底锅、收纳锅、乘坐电梯、推椅子、击掌的任务,Mobile ALOHA也能闇练地完成。
下图是机器人在实行任务时的导航移动轨迹。
50个演示,80%+成功率
实验评估中,研究职员紧张为了回答两个核心问题:
(1) 通过协同演习和少量移动操作数据,Mobile ALOHA能否节制繁芜的移动操作技能?
(2)Mobile ALOHA能否利用不同类型的模拟学习方法,包括ACT、扩散策略和基于检索的VINN?
研究创造,协同演习可以提高ACT性能。在7项具有寻衅性的移动操作任务中,与静态ALOHA数据集进行协同演习可持续提高ACT的成功率。
这对付乘电梯时须要按键、洗濯锅时须要打开水龙头,等子任务尤为主要,由于在这些任务中,精确操作是瓶颈所在。
其余,Mobile ALOHA与「模拟学习」方法兼容。
带分块的VINN、扩散策略和ACT在Mobile ALOHA上都取得了良好的性能,并且受益于与静态ALOHA的协同演习。
协同演习针对不同数据组合,其表现也是非常稳健。如下是利用ACT进行擦拭酒的任务演习后的成功率。
协同演习和预演习效果比拟如下。协同演习在擦拭酒的任务中的表现,成功率95%,大大优于预演习的成功率40%。
其余,用户利用Mobile ALOHA远程操控未见过的任务时,可以迅速靠近专家级速率。
总而言之,仅用32000美元的预算,通过静态ALOHA数据协同演习的模拟学习,Mobile ALOHA只须要20-50个演示就能学会各种繁芜的任务。
斯坦福Mobile ALOHA向所有人展示了机器人在各种运用处景的潜力,乃至机器人开源实现了大家可复刻。
网友表示,机器人学是一门既须要硬件又须要算法的系统研究。我猜在2024年,我们将在现实天下中看到越来越多的机器人。
作者先容
Zipeng Fu(项目共同卖力人)
Zipeng Fu是斯坦福大学AI实验室的打算机科学博士生,导师是Chelsea Finn。同时也在Google DeepMind担当学生研究员,与Jie Tan互助。
此前,他在卡内基梅隆大学(CMU)攻读机器学习领域的硕士学位,并在机器人学院(Robotics Institute)担当学生研究员,导师是Deepak Pathak和Jitendra Malik。
他在加州大学洛杉矶分校(UCLA)得到了打算机科学与运用数学的学士学位,导师是Song-Chun Zhu。
他的研究兴趣集中在机器人学、机器学习和打算机视觉的交汇处。并致力于研究在繁芜多变的开放天下中实现稳定性能和可实际支配的机器人系统。
他的研究得到斯坦福研究生奖学金的支持,并且还是Pierre和Christine Lamond奖学金的得到者。
Tony Z. Zhao(项目共同卖力人)Tony Z. Zhao是斯坦福大学的打算机科学博士生,导师是Chelsea Finn。同时也在Google DeepMind担当兼职研究助理。
在此之前,他于2021年在加州大学伯克利分校(UCB)得到了电子与打算机科学(EECS)学士学位,导师是Sergey Levine和Dan Klein。并曾在特斯拉Autopilot和谷歌X Intrinsic演习。
他的目标是使机器人能够完成繁芜而风雅的操控任务。
Chelsea FinnChelsea Finn是斯坦福大学打算机科学与电气工程的助理教授。研究兴趣是机器人及其他智能体能够通过学习和互动来展现出的智能行为。
她的实验室IRIS致力于通过大规模的机器人互动研究智能,并且是SAIL和ML Group的互助实验室。同时,她也在Google Brain团队担当研究事情。
此前,她在加州大学伯克利分校(UCB)得到了打算机科学博士学位,并在麻省理工学院(MIT)取得了电气工程与打算机科学的学士学位。
参考资料:
https://mobile-aloha.github.io/