新物网

当前位置:首页 > 互联网

互联网

兔子r1口袋AI:引领AI助手潮流的独特设计

时间:2024-01-11 06:00:10 小新新
在CES的众多AI设备中,小编特别留意到一款与众不同的产品,那就是兔子的r1(他们坚持使用小写字母)。这款设备不仅因其醒目的涂装和独特的外形脱颖而出,更因其专注

在CES的众多AI设备中,小编特别留意到一款与众不同的产品,那就是兔子的r1(他们坚持使用小写字母)。这款设备不仅因其醒目的涂装和独特的外形脱颖而出,更因其专注于细节的设计而引人注目。公司希望用户能携带这款第二设备,以免打开手机进行简单任务,并为此做出了极其精湛的技术努力。

这款售价200美元的r1的理念很简单:当你需要执行一些简单的任务,比如叫车、查找与朋友见面的餐馆或寻找海滨周末住宿时,你可以将手机放在口袋里。

兔子公司的创始人兼CEO Jesse Lyu在接受记者电话采访时表示:“我们并不想淘汰你的手机。手机是一个娱乐设备,但如果你想完成一些任务,它并不是最高效的工具。为了安排和同事共进晚餐,我们需要四五个不同的应用程序共同合作。大型语言模型是自然语言的通用解决方案,我们希望为这些服务找到一个通用解决方案,它们应该能够理解你。”

与其从口袋里拿出手机,解锁手机,找到应用程序,打开它并浏览用户界面(这太繁琐了!),不如拿出r1并用自然语言给它下达指令: “叫辆Uber XL带我们去现代艺术博物馆。” “给我列一个距离这里10分钟步行路程内的五家便宜餐馆。” “列出Airbnb上离Seaside不到10英里范围内、每晚不超过300美元的最受好评的六人小屋。”

r1会按照你的要求执行,并在几秒钟后提供确认和你可能需要的任何内容。

听起来很熟悉,不是吗?毕竟,我们所谓的“AI助手”在过去五六年中一直在做这样的事情。“Siri,做这个”,“嘿,谷歌,那个。”你说得对!但有一个重大的区别。

Siri、Google助手和Alexa等等更应该被描述为“定制迷你应用程序的语音界面”,而不是我们在过去一年里开始与之聊天的语言模型。当你告诉Google在你当前的位置为你叫辆Lyft时,它使用官方Lyft API发送相关信息并得到响应——基本上只是两台机器相互交流。

并没有什么不对的,但通过API可以做的事情通常非常有限。当然,助手和应用之间必须存在官方关系,一个经过批准和付费的连接。如果你喜欢的应用不与Siri合作,或者Alexa访问的API已过时,那就没办法了。那么对于一些太小而无法与谷歌达成官方协议的小众应用呢?

兔子设计的更接近我们在过去一年中看到的“代理”类型的AI,这些机器学习模型是在普通用户界面(如网站和应用程序)上训练的。因此,它们可以通过点击普通网页或移动应用程序上的普通按钮和字段来下订单,而不是通过专用的Domino API。

公司在无数屏幕截图和常见应用程序的视频上训练了自己的“大型行动模型”(LAM),因此当你告诉它在Spotify上播放一张老的Bob Dylan专辑时,它不会在一半迷失方向。它知道要去Dylan的艺术家页面,按发布日期组织专辑,向下滚动并排队播放其中的一张。或者你想怎么做。

它已经知道如何使用一些常见的应用程序和服务,但如果有一个它不认识的,兔子声称r1只需观察您使用该应用程序一段时间,就可以学到——尽管此教学模式将在推出时不可用。(Lyu表示他们已经在《暗黑破坏神4》中使其可用,因此它可能可以处理AllTrails。)

但当然r1实际上不能自己按这些应用程序中的按钮——首先,它没有手指按,其次,它没有帐户。为了解决第二个问题,兔子设置了一个被称为“兔子洞”(rabbit hole)的平台,您可以在其中使用登录凭据激活服务,这些凭据不会被保存。激活后,服务器将使用普通按钮按键方式操作应用程序,就像您可能会操作一样,但是在某种仿真环境中进行(他们没有特别详细说明)。

“想象一下把你的手机递给你的助手,”Lyu慷慨地认为我们都熟悉这种方便。“我们所做的一切就是让这个设备为你按按钮。在他们的后台所看到的一切就是你试图做一些事情。这是完全合法的,符合他们的服务条款。”

尽管公司在技术方面显然付出了很多努力,但真正的问题是是否有人愿意在手机之外携带这个东西。售价为200美元,不需要订阅,但您需要提供SIM卡。这比AirPods便宜,而且它确实承诺了许多有趣的功能。

它显然有着独特的外观。就像如果Playdate有一个创始人表弟开着一辆亮红色的特斯拉一样(你知道的那种类型)。这是由Teenage Engineering设计的,他们如今几乎制造一切有价值的东西。

你可能会问,为什么要在一个你可以说话的东西上加一个屏幕?嗯,屏幕需要显示视觉内容,比如搜索结果或确认您的位置。我有两种看法。一种认为,那你还能怎么做呢?另一种认为,如果你首先需要确认所有这些东西,为什么不直接用口袋里的手机呢?

兔子公司的团队显然认为拿出这个小巧轻便(3“x3”x0.5”,115克)的小玩意,说出你想要的话,然后使用滚轮和按钮浏览结果,是比在许多情况下使用应用程序更简单的体验。我可以理解这可能是真的——许多应用程序设计得很差,现在还增加了广告的危险。

但相机是为什么呢?这是一个问题,我没有得到一个很直接的答案。它有一个有趣的磁性/自由浮动的轴,因此它可以旋转到水平并指向您想要的任何方向。似乎有一些即将推出的功能还没有准备好——比如“这袋糖果有多少卡路里?”或“是谁设计的这座建筑?”之类的问题。视频通话和社交媒体可能会推出。

该设备现已开始预订,Lyu表示他们计划在3月底向美国发货。

竞争激烈

然而,最终的问题是兔子r1是否能在面对强大竞争的情况下成功。谷歌、苹果、微软、OpenAI、Anthropic、亚马逊、Meta等等都在努力每天创造更强大的机器学习代理。兔子面临的最大危险不是没有人会买,而是在六个月后,一家千亿美元的公司推出自己的行动代理,完成兔子80%的工作,并免费提供在您的智能手机上使用。

我问Lyu是否担心这对他和他的公司来说是一个问题,这家有17名员工的公司规模并不是那么大。

“当然我们很担心,”他回答道,“我们是一家初创公司。但仅仅因为他们可以做到并不意味着我们需要停下来。”
他指出,尽管这些公司拥有庞大的资源,但它们也缺乏初创公司的敏捷性,后者可以今天就发布部分产品,而它们可能要延后发布。而且它们也缺乏数据。他指出,语言模型“基于一个公开的配方 – 仅仅五篇论文而已。” 在这方面几乎没有创造壕沟的机会。但是兔子的LAM是建立在专有数据上的,并且旨在针对非常特定的设备上的非常特定用户体验。

即便如此,即使兔子 r1 更好或更可爱,人们更喜欢简单和便利。当他们的第一个设备能完成大部分任务时,为什么他们要花钱携带第二个设备呢?短期内,答案是肯定的:Lyu说预订订单正在积累。兔子是否能活下去并生产下一代,也就是假设的 r2 呢?即使他们没有,这个炙手可热的小设备可能会在我们的记忆中作为人工智能炒作时代合适的雄心勃勃的典范而长存下去。