斯坦福大学给机器人一个提示
斯坦福大学给机器人一个提示
傅盛表示,“2023年是人类历史上的第三个奇迹年”。
今年,大模型流行,人工智能爆发,尤其是体现智能领域的突破,给机器人带来了更大的想象空间。
整个机器人行业都在摩拳擦掌,希望在这样的有利背景下有所作为,以免错失良机。
2023年之后,也就是2024年的第一周,斯坦福大学的研究团队又公开了另一个开源项目,一个名为“ALOHA”的机器人开源项目。
在这个开源项目中,一个配备手臂的“机器人”可以叠被子、做家务,甚至学会做饭。
尤其是在它发布了几条忙得不亦乐乎的视频之后,各种短视频广为流传,让很多人疑惑,这不就是我们梦想中的保姆机器人吗?
然而,就像波士顿动力超级机器人当年进行跑酷和迪斯科弹跳一样,斯坦福大学研究团队的这个项目的魔力在今天失焦的媒体视角下再次被神话化。
面对如此出乎意料的反应,就连ALOHA项目联合负责人托尼·赵也在上发布了ALOHA任务失败的视频,并表示:“机器人还没有准备好接管世界!”
一波热度将ALOHA推上了风口浪尖,一场闹剧让该项目再次面临质疑。
事实上,如果你花点时间读一下这篇论文,你会发现ALOHA是一个不错的开源项目,也是一个与目前主流愿景中的体现智能略有不同的机器人项目。
01 什么是阿罗哈?
看过短视频的人都知道:
ALOHA是一款可以打扫家务、煎鸡蛋、煮饭的机器人。 这个机器人能完成的这些任务,正是家庭保姆机器人所需要的技能。
正因为如此,ALOHA一度被认为是保姆机器人的雏形,甚至被认为是未来几年推动保姆机器人出现的关键。
事实上,论文作者并没有想那么多。
本文将ALOHA在硬件上定义为“一种用于采集双臂运动数据的低成本全身远程操作系统”。
这个机器人,也就是这个系统,主要由以下几个部分组成:
移动基地——AGV机器人;
供电系统——1.26kW·h、14kg电池;
控制系统——配备NVIDIA 3070显卡和Intel i7的笔记本电脑——;
运动系统——两个机械臂;
视觉系统 - 3 个分辨率和频率为 50Hz 的摄像头。
这样的硬件配置创建了可以在家庭环境中实现如上所述的许多功能的机器人。 最关键的点其实有两点:
首先,机器人的机动性。
看过之前锌行业文章的人应该都知道,在机器人领域,除了工业机械臂之外,还有两类机器人已经相当成熟:
一类是用于家庭地面清洁场景的扫地机器人,另一类是用于仓储运输场景的AGV。
事实上,正是定位、导航、路径规划等与机器人移动相关的技术的成熟,推动了近十年来这两类产品的逐渐普及。
至于移动底盘,ALOHA直接选用了市场上成熟的AGV产品,解决机器人在家庭环境下的移动性问题。
其次,机器人的运动控制能力。
这主要指的是机械臂的运动控制,这也是开源项目ALOHA的独特性和技术含量。
与目前利用强化学习模型、大型模型等驱动机器人自主识别(感知)环境并执行(决策)任务的不同之处在于:
ALOHA仍然采用了更直接的“模仿学习”——通过人类操作机器人,机器人学会模仿人类的行为,形成机器人的行为逻辑。
在该项目发布的视频中,人类操作机械臂的场景实际上是人类进行模仿学习的教学过程,也是机器人模仿学习中最关键的一步。
正是通过这样的方法论,ALOHA只需要人类经过50次示范训练,就能在处理日常家务时达到80%以上的成功率。
02 令人头疼的“虾仁炒鸡蛋”
在这篇论文中,作者对ALOHA进行了7个任务的训练和研究,包括擦红酒、煎虾、漂锅、存放锅、叫电梯、推椅子、击掌。
在最后的演示视频中,最令人惊讶的是ALOHA居然可以做出让很多硬汉们摸不着头脑的滑蛋虾。
然而,让机器人做这样的菜并不像想象的那么容易。
除了要求人类教学让机器人模仿学习之外,作者还为ALOHA导入了静态数据集。 该数据集包含825个任务的双臂执行数据。
然而这825个任务的双臂执行数据与ALOHA要执行的任务不同。 甚至产生这些数据的机器人原型也与ALOHA双臂手臂的安装位置不同。
科学研究是一条漫长的路,一切成熟技术的顺利应用都是众多科学家不断积累和几代人在前人研究成果的基础上不断创新的结果。
ALOHA能否基于现有数据集和模仿学习掌握更好的操作能力也是本文试图解释的一个重要问题。
实际实验过程中,通过在原始数据集上加入模仿学习方法,执行“推椅子”、“擦红酒”等任务的能力显着提升,系统具有更强的泛化能力。
具体来说,当桌子下面放一排5把椅子时,推第4把和第5把椅子时,这种方法的成功率分别提高了15%和89%。
从实验中整体任务执行成功率来看,经过50次教导(20次击掌),擦红酒、叫电梯、击掌、存放锅具、冲洗锅具、推6个任务的成功率椅子的利用率分别达到95%、95%、85%、85%、80%、80%。
然而,最令人惊叹的长达75秒的艰巨烹饪任务“虾滑蛋”,其实ALOHA的任务执行成功率只有40%。
也就是说,当我们看到ALOHA完美地准备了一盘虾仁滑蛋的时候,也是一个低概率的事件。
看来“虾仁炒鸡蛋”不仅让人类摸不着头脑,现在也让机器人摸不着头脑。
03 斯坦福大学警告机器人
“虾仁炒鸡蛋”效果不好也没关系。 毕竟,这不是斯坦福研究团队能够独自完美解决的问题。
事实上,这并不是他们想要解决的问题。
他们要解决的问题是,目前双臂机器人运动控制的研究方法能否更进一步——验证静态数据集和不同模仿学习算法联合训练的可行性。
从这一点来看,他们做到了。
在一系列实验中,他们验证了三种重要的模仿学习算法ACT(扩散策略)和VINN在ALOHA上的任务执行成功率得到了显着提升。
更重要的是,他们搭建的平台仅花费3.2万美元(约合人民币22.7万元)。
此前,与ALOHA类似的双臂机器人平台PR2和TIAGo售价普遍在20万美元以上(约合人民币142万元)。
也就是说,斯坦福研究团队验证了一个想法,为机器人手臂运动控制的研究提供了一个更便宜的研究平台。
虽然直接打造一个厨师机器人甚至保姆机器人并没有大家想象的那么酷,但是这样一套开源平台和算法的效果,尤其是现在大型模型神话般的情况,已经让大家重新意识到了模仿学习。 对于机器人的重要性。
同时也为后续机器人乃至仿人机器人上肢运动控制的研究提供了新的思路。
而且,这是中国科学家团队的另一个开源项目。
本文来自微信公众号“锌业”(ID:),作者:,36氪经授权发布。