当前位置：首页 > 科技

科技

打败斯坦福炸虾机器人，GPT-4支持Alter3幽灵弹吉他

时间：2024-01-08 16:09:49 yiwu

人类只要给出自然语言命令，GPT-4就能把这些指令转换为可执行的代码，让机器人模仿人类做出任何动作，包括弹吉他、自拍、扮鬼等等，甚至还能去电影院偷别人的爆米花。东京大学的扮鬼机器人利用指令，它就可以完成一系列人类行为，比如弹吉他、自拍、扮鬼等等，甚至可以去电影院偷吃别人的爆米花。

机器人时代终于到来了！这家初创公司自己的机器人在看了 10 个小时的视频后学会了煮咖啡。另一方面，受到东京大学GPT-4加持的机器人可以模仿人类的任何动作。人类只需要发出自然语言指令，根本不需要编程！

机器人，本周它真的迎来了它的时刻！

一家初创公司制造了一款可以学习人类如何煮咖啡的机器人。

就在昨天，创始人在社交平台上提前宣布了自己实验室取得的重大突破。

东京大学将 GPT-4 连接到人形机器人。

只要人类给出自然语言命令，GPT-4就可以将这些命令转换为可执行代码，让机器人可以模仿人类执行任何动作，包括弹吉他、自拍、装鬼等等，甚至可以去模仿人类。去电影院偷别人的爆米花。

我感觉很放松，喝了一杯茶。

用吉他弹奏摇滚乐。

假装我是一条蛇。

自拍一下，摆出像网红一样俏皮夸张的表情。

我一边吃爆米花，一边在电影院看电影。突然我意识到我在吃别人的爆米花，我尴尬地笑了。

通过观看人类煮咖啡 10 个小时来学习这项技能

名为01的机器人采用了端到端的人工智能系统。

只需观看人类煮咖啡的视频，它就能在10小时内学会煮咖啡的技巧。

该机器人通过神经网络处理和分析视频数据。通过观看视频，它可以学习人类的动作和手势，然后模仿这些动作来学习冲泡咖啡的过程。

这个过程证明了机器人可以独立学习技能，无需编程！

只要对它说：01，你能给我泡杯咖啡吗？

它将咖啡胶囊放入机器中，用手按下按钮，很快，一杯香浓的咖啡就做好了！

这个过程的可贵之处在于，机器人可以学习如何纠正自己的错误。例如，如果咖啡胶囊放置不正确，它会自行纠正。

布雷特解释了为什么使用视频数据进行训练如此重要。

之所以具有开创性，是因为如果能够获取某个应用的人类数据（比如煮咖啡、叠衣服、仓库工作等），就可以基于01对AI系统进行端到端的训练。

这是一种可以扩展到每个应用程序的方法。当机器人数量扩大时，从机器人人群中收集更多数据并进行重新训练，机器人就能取得更好的性能。

值得一提的是，不少网友对机器人煮咖啡的速度表示惊讶。官方回应称视频没有加速。

东京大学的幽灵机器人

这款来自东京大学的人形机器人此前因其栩栩如生的“扮鬼”行为而淡出人们的视线。

东京大学的研究人员将这个人形机器人连接到 GPT-4。

使用命令，它可以完成一系列人类动作，比如弹吉他、自拍、装鬼等，甚至可以去电影院偷别人的爆米花。

在此过程中，LLM将书面指令转换为可执行代码，使机器人能够模仿各种人类动作。从视频效果来看，确实击败了最近流行的斯坦福家务机器人。

也就是说，我之所以能演得这么好，能把“鬼”模仿得这么好，就是因为GPT-4好！

“0创造恐惧的睁大眼睛的面部表情，张开嘴发出无声的尖叫”，

“我迅速向后靠去，仿佛被突然出现的幻影吓了一跳”，

“2举起双手在脸上挥舞，模仿幽灵般的动作”，

“3张大嘴摇头，表现出戏剧性的恐惧反应”，

“4 将你的上半身从一侧移动到另一侧，就好像被幽灵困扰一样”，

“5双手抱在胸前，表现出极度焦虑”，

“6只眼睛从一侧扫向另一侧，仿佛目睹了一场奇怪的活动”，

“7向前倾斜，然后向后倾斜，模仿幽灵的漂浮动作”，

“8 慢慢回到休息姿势，同时保持惊恐的表情。”

通过代码将人类行为映射到机器人

如何利用LLM产生自发运动？

具体过程是将GPT-4融入其中，从而将GPT-4与Alter的身体动作有效结合。

通常，低级机器人控制是依赖于硬件的，这超出了LLM语料库的范围，这给基于LLM的直接机器人控制带来了挑战。

然而，研究人员实现了突破——通过程序代码，他们将人类动作的语言表达映射到机器人的身体上，使得直接控制变得可行。

这种方法消除了对每个身体部位进行显式编程的需要，使其能够呈现各种姿势，例如自拍或假装成鬼魂，并随着时间的推移生成一系列动作。

这充分证明了机器人的零样本学习能力。

即使是口头反馈也可以调整机器人的姿势，而无需进行微调。

例如，如果您使用 GPT-4 告诉机器人“播放金属音乐”，它会收到信息并开始以适当的方式弹奏电吉他，并随着节奏摇头。

“0创造出强烈兴奋的面部表情，睁大眼睛，微张嘴巴，狂野地微笑”，

“1 积极地向前倾，仿佛准备好投入音乐中”，

“2模仿左手握住吉他琴颈的动作”，

“3 开始用右手弹奏空气，就像弹奏重奏一样”，

“4 有节奏地上下摇头，模仿金属音乐中的摇头动作。”

“5举起左手，仿佛要在吉他上弹奏更高音，他的眼睛锁定在想象中的指板上”，

“6 用右手模仿戏剧性的吉他弹奏，仿佛弹奏有力的和弦”，

“7将右手慢慢扫过假想的吉他弦，模仿吉他独奏”，

“8模仿想象中的吉他砸在地板上的动作，体现金属音乐的狂野精神”，

“9 逐渐恢复到休息姿势，但保持强烈的面部表情，显示出挥之不去的兴奋。”

LLM 将人类从迭代工作中解放出来

在LLM出现之前，为了让机器人模仿人的姿势，或者假装某种行为，比如倒茶或者下棋，研究人员必须按照一定的顺序控制所有43个轴。

这个过程需要人类研究人员手动进行许多改进。

感谢法学硕士，人类研究人员现在可以从迭代工作中解放出来。仅使用口头指令即可控制程序。

研究人员先后应用了两种用自然语言编写的思想链协议，这些协议不需要学习过程的迭代（即零样本学习）。

如图所示，研究人员使用了以下方案。

应该注意的是，GPT-4 是非确定性的（非），即使当 $$=0.$$ 时也是如此。

因此，即使使用相同的输入，也可以产生不同的运动模式。

一个使用口头命令控制人形机器人的程序。通过使用2输出代码，从而使用自然语言控制，该架构基于CoT

新物网

新物网

科技

打败斯坦福炸虾机器人，GPT-4支持Alter3幽灵弹吉他

相关文章