打败斯坦福炸虾机器人,GPT-4支持Alter3幽灵弹吉他
打败斯坦福炸虾机器人,GPT-4支持Alter3幽灵弹吉他
机器人时代终于到来了! 这家初创公司自己的机器人在看了 10 个小时的视频后学会了煮咖啡。 另一方面,受到东京大学GPT-4加持的机器人可以模仿人类的任何动作。 人类只需要发出自然语言指令,根本不需要编程!
机器人,本周它真的迎来了它的时刻!
一家初创公司制造了一款可以学习人类如何煮咖啡的机器人。
就在昨天,创始人在社交平台上提前宣布了自己实验室取得的重大突破。
东京大学将 GPT-4 连接到人形机器人。
只要人类给出自然语言命令,GPT-4就可以将这些命令转换为可执行代码,让机器人可以模仿人类执行任何动作,包括弹吉他、自拍、装鬼等等,甚至可以去模仿人类。去电影院偷别人的爆米花。
我感觉很放松,喝了一杯茶。
用吉他弹奏摇滚乐。
假装我是一条蛇。
自拍一下,摆出像网红一样俏皮夸张的表情。
我一边吃爆米花,一边在电影院看电影。 突然我意识到我在吃别人的爆米花,我尴尬地笑了。
通过观看人类煮咖啡 10 个小时来学习这项技能
名为01的机器人采用了端到端的人工智能系统。
只需观看人类煮咖啡的视频,它就能在10小时内学会煮咖啡的技巧。
该机器人通过神经网络处理和分析视频数据。 通过观看视频,它可以学习人类的动作和手势,然后模仿这些动作来学习冲泡咖啡的过程。
这个过程证明了机器人可以独立学习技能,无需编程!
只要对它说:01,你能给我泡杯咖啡吗?
它将咖啡胶囊放入机器中,用手按下按钮,很快,一杯香浓的咖啡就做好了!
这个过程的可贵之处在于,机器人可以学习如何纠正自己的错误。 例如,如果咖啡胶囊放置不正确,它会自行纠正。
布雷特解释了为什么使用视频数据进行训练如此重要。
之所以具有开创性,是因为如果能够获取某个应用的人类数据(比如煮咖啡、叠衣服、仓库工作等),就可以基于01对AI系统进行端到端的训练。
这是一种可以扩展到每个应用程序的方法。 当机器人数量扩大时,从机器人人群中收集更多数据并进行重新训练,机器人就能取得更好的性能。
值得一提的是,不少网友对机器人煮咖啡的速度表示惊讶。 官方回应称视频没有加速。
东京大学的幽灵机器人
这款来自东京大学的人形机器人此前因其栩栩如生的“扮鬼”行为而淡出人们的视线。
东京大学的研究人员将这个人形机器人连接到 GPT-4。
使用命令,它可以完成一系列人类动作,比如弹吉他、自拍、装鬼等,甚至可以去电影院偷别人的爆米花。
在此过程中,LLM将书面指令转换为可执行代码,使机器人能够模仿各种人类动作。 从视频效果来看,确实击败了最近流行的斯坦福家务机器人。
也就是说,我之所以能演得这么好,能把“鬼”模仿得这么好,就是因为GPT-4好!
“0创造恐惧的睁大眼睛的面部表情,张开嘴发出无声的尖叫”,
“我迅速向后靠去,仿佛被突然出现的幻影吓了一跳”,
“2举起双手在脸上挥舞,模仿幽灵般的动作”,
“3张大嘴摇头,表现出戏剧性的恐惧反应”,
“4 将你的上半身从一侧移动到另一侧,就好像被幽灵困扰一样”,
“5双手抱在胸前,表现出极度焦虑”,
“6只眼睛从一侧扫向另一侧,仿佛目睹了一场奇怪的活动”,
“7向前倾斜,然后向后倾斜,模仿幽灵的漂浮动作”,
“8 慢慢回到休息姿势,同时保持惊恐的表情。”
通过代码将人类行为映射到机器人
如何利用LLM产生自发运动?
具体过程是将GPT-4融入其中,从而将GPT-4与Alter的身体动作有效结合。
通常,低级机器人控制是依赖于硬件的,这超出了LLM语料库的范围,这给基于LLM的直接机器人控制带来了挑战。
然而,研究人员实现了突破——通过程序代码,他们将人类动作的语言表达映射到机器人的身体上,使得直接控制变得可行。
这种方法消除了对每个身体部位进行显式编程的需要,使其能够呈现各种姿势,例如自拍或假装成鬼魂,并随着时间的推移生成一系列动作。
这充分证明了机器人的零样本学习能力。
即使是口头反馈也可以调整机器人的姿势,而无需进行微调。
例如,如果您使用 GPT-4 告诉机器人“播放金属音乐”,它会收到信息并开始以适当的方式弹奏电吉他,并随着节奏摇头。
“0创造出强烈兴奋的面部表情,睁大眼睛,微张嘴巴,狂野地微笑”,
“1 积极地向前倾,仿佛准备好投入音乐中”,
“2模仿左手握住吉他琴颈的动作”,
“3 开始用右手弹奏空气,就像弹奏重奏一样”,
“4 有节奏地上下摇头,模仿金属音乐中的摇头动作。”
“5举起左手,仿佛要在吉他上弹奏更高音,他的眼睛锁定在想象中的指板上”,
“6 用右手模仿戏剧性的吉他弹奏,仿佛弹奏有力的和弦”,
“7将右手慢慢扫过假想的吉他弦,模仿吉他独奏”,
“8模仿想象中的吉他砸在地板上的动作,体现金属音乐的狂野精神”,
“9 逐渐恢复到休息姿势,但保持强烈的面部表情,显示出挥之不去的兴奋。”
LLM 将人类从迭代工作中解放出来
在LLM出现之前,为了让机器人模仿人的姿势,或者假装某种行为,比如倒茶或者下棋,研究人员必须按照一定的顺序控制所有43个轴。
这个过程需要人类研究人员手动进行许多改进。
感谢法学硕士,人类研究人员现在可以从迭代工作中解放出来。 仅使用口头指令即可控制程序。
研究人员先后应用了两种用自然语言编写的思想链协议,这些协议不需要学习过程的迭代(即零样本学习)。
如图所示,研究人员使用了以下方案。
应该注意的是,GPT-4 是非确定性的(非),即使当 $$=0.$$ 时也是如此。
因此,即使使用相同的输入,也可以产生不同的运动模式。
一个使用口头命令控制人形机器人的程序。通过使用2输出代码,从而使用自然语言控制,该架构基于CoT