OpenAI、微软押注,大模型应用的尽头是AI Agent ?|对话面壁智能
声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:郝 鑫,授权站长之家转载发布。
你见过Agent们“吵架”么?
“这个产品需要具备XX需求,为什么没有?”,“你提出的需求完全不合理,技术上达不到!”,现场顿时乱作一团,越来越多的“员工”也被卷进了这场大乱斗中。
激烈的争吵声越过了屏幕外,面壁智能的测试人员通过后台日志,发现Agents正在上演一场“职场大戏”。
这家完全由AI Agents组成的软件开发公司,是面壁智能基于其创新研发的开源框架ChatDev开发的SaaS产品,产品经理和技术开发的Agents们“继承”了现实中的角色,在数字世界中也“Battle”了起来。
大模型之后,应用层到底驶向何方一直是创业公司讨论的核心话题,在最近,这个问题似乎有了答案。
OpenAI再次成为了“行业模版”,通过GPTs打造Agent功能一经开放,一天内就涌现了2万多个GPTs。
而早就发现Agent确定性机会的面壁智能,也终于不用再煞费苦心地给投资人解释,究竟何为Agent,以及为什么Agent潜力巨大。
目前,在行业内关于AI Agent达成一定共识的,主要是来自OpenAI的一篇博文。在里面对AI Agent的定义为:大语言模型作为大脑,Agent有感知、规划、记忆、和使用工具的能力,能自动化实现用户复杂目标,这也奠定了AI Agent的基本框架。
(AI Agent的基本框架)
虽然AI Agent的概念早已有之,今年年初也冒出了一些昙花一现的构想,但因为底层大模型技术能力的不成熟、不完善,所以直到现在才得以爆发。
从结果来看,AI Agent发展分为两个阶段,一个是以OpenAI的GPTs为代表的单体智能,发展到后期,则进入了像面壁智能打造的ChatDev这种多智能体协作的群体智能阶段。
几乎与国外“斯坦福小镇”同期,面壁智能直接进入了群体智能的第二阶段。
(斯坦福小镇示意图)
(面壁智能ChatDev群体智能交流链示意图)
“我们从一开始就从群体智能开始切入,发布了ChatDev多智能体协作开发框架 ”,面壁智能产品负责人告诉光锥智能。
据了解,面壁智能的核心科研成员来自于今年大模型创业浪潮中的“半壁江山”——清华大学NLP实验室,联合创始人刘知远是清华大学计算机系长聘副教授、智源青年科学家,其联合创始人、CEO也是知乎的CTO李大海。
那么,选择了一条比OpenAI还难走的路,在大模型时代,作为国内最早一批深入AI Agent的公司,面壁智能如何思考AI Agent技术,对AI Agent未来发展又有怎样的判断?带着重重疑惑,光锥智能对话面壁智能,寻找关于AI Agent的答案。
核心观点如下:
1、AI Agent就是下个时代大模型赋能整个应用场景的一种新模态。
2、现阶段,AI Agent呈现出的更多是一种“拟人化”的形式。它可被定义为“分身”、“员工”和任意“个体”。
3、Copilot和Agent不是同一个概念,Agent实现的是全自动化的决策、运行和反馈。
4、用Agent开发软件,能够把几万元的开发成本降至几十元,甚至几元。
5、大模型是Agent的“输血泵”,赋能Agent原子化能力,决定其干得好不好。
以下为对话实录:
光锥智能:面壁一词来源于《三体》中的面壁计划,面壁智能是一家什么样的公司?与其他大模型公司相比,面壁智能有什么特殊的地方?
面壁智能:面壁智能是一家集学术研究、技术开源和产品商业化为一体的公司。
整体上分为三个部分:首先是清华NLP实验室,与我们共同进行底层前沿的科研探索;其次是开源社区OpenBMB,我们会把一些前沿的一些技术、科研成果开放给更多的开发者和行业;另外就是面壁智能,基于所有的科研沉淀和开源框架,进行应用研发和整体商业化落地,由此形成了以面壁智能为枢纽的产学研联动“一体两翼”的架构。
具体到面壁智能这家公司,公司的愿景和理念是“智周万物”(Internet of Agents),即让 AI Agents连接万物,实现从“万物互联”到“万物智联”。
以前有互联网,后面有物联网,面壁智能认为在当前这个时代,大模型以及以大模型孵化的AI能力,是下一个时代新的拐点,期望把我们在大模型、AI方面的基础能力赋能到方方面面,从而让整个行业、社会有一个新的提升。
光锥智能:为什么一开始就选择了AI Agent这个方向?有哪些契机和思考?
面壁智能:大模型想要落地到具体场景,AI Agent是重要路径,它代表的是比“裸”模型更拟人的使用体验。我们判断未来会是Agent的世界,万物都是Agent。
比如电饭锅可以是Agent,放入食材后,我们跟它说要熬粥,它就会根据熬粥的逻辑,去设定相应的加热方式。冰箱也会是Agent,如果它的冷却剂漏了,它会跟我们对话,说自己需要维修了,或者它已经打完了维修电话,通知维修师傅上门时间;或者提醒我们上周蔬菜买多了,要赶紧吃掉,否则菜就坏了。
基于此,我们对于未来世界才有了“智周万物”的设想以及面壁智能的定位:一家基于大模型驱动Agent技术的公司,技术研发方向从模型基座到Agent技术,再到最终的应用。
光锥智能:在行业内,对AI Agent的定义都还没达成共识,面壁智能如何定义AI Agent?
面壁智能:现阶段,AI Agent呈现出的更多是一种“拟人化”的形式。它可被定义为“分身”,也可以被定义成某个“员工”,也可以被定义成组织中的一个“个体”,甚至到高阶阶段,也可以连接“物体”。如果单独的物体也不是最后的形态,那它的定义应该是一个完完全全新的东西。
我们认为在一个理想技术路线下,AI Agent至少应该具备以下几个能力:第一是,应该具备超级高的智商,无论是学习使用工具、规划,还是记忆、知识储备,其实都是智商的一部分;第二是,应该具备超级高的情商,需要其能够针对不同的场景和不同需求的用户有较强的自然对话能力和理解能力;第三是自省和成长迭代能力;第四多模态能力,能够模拟人的听、说、看、想,具备跟整个自然世界交流的能力;第五是价值观对齐能力,AI Agent也需要像人一样受到社会价值观和道德取向的约束;第六是可被定义的能力,根据人的需求和设定,随时变化出一个特定的形态。
光锥智能:很多人分不清Copilot与Agent,或者将二者粗略的画等号,您怎么看?如果有差异,差异在哪?
面壁智能:这还是两个不同理念的东西。假如说未来你可以去基于Agent搭建一个数字公司,对这个数字公司而言,95%的情况下可以自己运转,但过程中他会反问你,公司的核心目标是什么?期望达到的销售额是多少?你在公司的投入有多少?在实际运行过程中,遇到难以决策的问题也会寻求你的帮助,你需要把知识、经验、需求、预期等喂给它,在交互过程中实现自动化的公司经营;这跟基于人设定的逻辑,辅助处理问题的逻辑完全不一样。类似ChatDev这种群体智能自动化创造的产品、就是奔着Agent自动化运转的思路去做的实践。
光锥智能:您认为AI Agent的确定性机会在哪?在这个十分不确定的大模型时代,为什么认为这条路能行得通?
面壁智能:回顾几次工业革命变迁,背后都是生产力的跃升。从蒸汽机、电力再到如今的人工智能,生产力的变革带来了整个社会生产关系、生产工具的重塑。在大模型时代,我们认为AI Agent就是这样具有生产力性质的技术,其能力强、效率高的特性决定了,它可以在某种程度上模拟一个人、一个组织、一个公司,大幅提升生产效率和交互方式。虽然现在AI Agent发展仍在早期,但其未来的潜力却是无穷的,本身的商业化路径也十分清晰,从单体智能到群体智能,从技术到产品再到商业化,由此才坚定了我们确定AI Agent 方向的决心。
未来可能就是工程师去做构思,理解市场需求,然后将需求拆解交付给AI,让AI去完成一些低水平的重复劳动、以及部分创造性的工作,解放人的生产力。这有助于未来千行百业都能把AI相关软件应用起来,进而更好地推行全面数字化和信息化。
光锥智能:2023年至今,面壁智能在AI Agent这个方向,做了哪些探索?有哪些产品和思考?
面壁智能:基于AI Agent,我们打造了三个引擎,用以连接大模型和现实环境,它们分别是大模型驱动的AI智能体应用框架XAgent,智能体通用平台AgentVerse和多智能体协作开发框架ChatDev,以上三个引擎也被内部称为AI Agent“三驾马车”。
ToB方向AI Agent可能成为企业内部的不同工种,重塑企业组织流程,提效的同时,最后实现完全由AI Agent组建、运营起来的公司;ToC方向,AI Agent可能是智能助理等。
(XAgent数据分析示意图)
XAgent大模型驱动的超强AI智能体应用框架
通过大模型打造一个像人一样,具备一个高智商、情商、记忆力的超级智能体,在真实复杂任务的处理能力已全面超越AutoGPT。
AgentVerse大模型驱动的智能体通用平台
偏向通用化的Agent开发平台,在上面用户可以自定义构造专属Agent。
ChatDev大模型驱动的多智能体协作开发框架
AI Agent应用的具体开发框架,目前,已经跑出了落地的ChatDev产品,核心功能是允许用户使用自然语言开发软件。
光锥智能:能否以刚发布的ChatDev SaaS产品为例,更清晰地拆解面壁智能产品化的思路?
面壁智能:简单概括就是,让用户能够通过一句话的自然语言,去开发一款具体的软件,这将大大降低软件开发的门槛。
在这个软件公司里,会有CEO、CTO、开发经理、产品经理、测试专员、监督员等,只要用户把明确的需求告诉CEO角色的Agent,这个CEO就会基于用户的需求,组织整个软件开发流程。最后交付给用户的包含了软件产品和整个开发过程中的代码,并且所有流程都是自动化的。
(ChatDev软件开发过程)
这里面留给用户和开发者可自定义空间非常大,用户可以针对已开发出的软件提出新需求,也可以改变整个软件的开发模式。比如我定义的软件公司,跟别人默认的软件公司不一样,期望多几个测试,把这款软件变得更可信一些。那就根据这个具体的需求,多几次测试,多增加几个产品经理执行这个想法。
光锥智能:用Agent开发软件能够降低多少成本?
面壁智能:如果让软件工程师去开发,至少需要几万块钱的人工费,时间两周起步。但使用ChatDev开发,价格只需要几元到几十元,最快几分钟就能跑通一个应用。
目前,一些相对简单的软件开发流程已经完全跑通了,一个没有代码开发经验的小白用户,60%的场景应用都能完全实现。
光锥智能:怎么去训练一个ChatDev?
面壁智能:可以把这个事情理解成三步。
第一步是预设协作流程。在一个公司中,每个人都有固定的角色和分工。在群体智能场景中也需要一个预设的协作流程,比如在软件开发的过程中,就可能涉及产品经理、技术研发人员、测试人员等,每个人需要在其中发挥作用,甚至有时还会出现像人一样互相battle的情况。
第二步是指导和反馈机制。流程设计中有指导角色和执行角色,通过2个角色的互动沟通,减少执行幻觉的出现;同时任务完成后会有角色之间的反馈机制,类似现实世界中的跟老板汇报,以此来增强运行的准确性。
第三步是大模型赋予Agent原子化能力。所有AI Agent的引擎和应用都长在大模型上,光创建工作的协作流程还不够,每个人还得干活儿,可以把大模型理解成“输血泵”,AI Agent一旦有需求,大模型就把其需要的能力输送给它。
光锥智能:ChatDev产品反过来对底层的大模型能力提出了哪些调整?
面壁智能:这很大程度取决于上层应用,拆解下来看的话,大致需要几个基本的能力。
首先是复杂规划和指令遵循的能力,基于对话分析项目、拆解需求、提出正确的指令的能力。在一个协同的组织里,有不同的角色发布不同的指令特别是在复杂的生产环境中,指令可能不是简单的一句话,对于复杂的指令AI Agent能不能够有一个思维链的方法,完成一个个的拆解,并且基于这个拆解去进行实际落地,也是大模型本身要去解决的。
其次是编码能力,因为最后追求的结果是要能在真实环境里跑通,反馈、测试、修改的前提都要基于完整的代码流程。
再次是更长token的输入窗口能力,以后需要做更复杂的软件,就需要更复杂的任务理解、Prompt输入和更复杂的上下文对话能力。
最后还有格式化输出对接的能力,对知识内容的理解能力、精准的生成表达能力等大模型的综合能力。
光锥智能:如何理解大模型和AI Agent的关系?就AI Agent而言,面壁智能现在发展到了哪个阶段?
面壁智能:可以把大语言模型想象成一个哆啦A梦的魔法兜,现实中我需要的是怎么从这个兜里拿出东西,跟现实世界的真实需求去连接。我们打造的“AI Agent三驾马车”,有点像是魔法棒,将大模型的能力转化成实际的应用。
在具体应用上:ChatDev已经走过了论文研究、开源产品上线的前两个阶段,现在进入了第三个阶段——商业化产品孵化,会面向不同类型的用户开放使用,以前更多是开发者讨论的声量,现在的产品开始正式面向普通用户。同时,基于Agent产品面壁智能也在跟一些B端企业合作,尝试去辅助他们完成一些更复杂的工作。
上面提到的“三驾马车”可以视为未来诞生超级应用的土壤,现在AI Agent的基建已经逐步搭建起来;对于ChatDev产品中的哪些场景或者软件应用能够跑出来,我们也希望在用户使用过程中再去沉淀下来一些垂直的场景需求,探索更多商业化的空间。
光锥智能:如何看待OpenAI上线的“GPTs”功能?
面壁智能:OpenAI开发的GPTs,实际上属于单体智能,OpenAI开放出来的是基础Agent的构建能力,如说工具调用、基于知识库文件记忆能力。而ChatDev进化到了群体智能阶段,通过多Agent协同能去实现更复杂、贴近真实需求的应用。
光锥智能:AI Agent的未来应该是怎样的?
面壁智能:总体上来看,可能是更深层次的智能连接。我们说“智联网”发展到后面也需要把物理连接纳入进去,单体智能再往前发展也会扩展到物的智能、机器人的联动。从群体智能角度来看,ToC或许是更大的社区化的虚拟组织,每个人的Agent都能通过虚拟数据连接在一起;ToB则是虚拟的组织、企业,不同的企业和员工都能通过智能体纳入到网络当中。发展至最后,整个社会将变成一个巨大的虚实结合的网络,形成“智联网”——IoA(Internet of Agent)。
通过不同的智能体,提供了更强的生产力,重新塑造整个生产关系,整个社会的产能也会有一个很大的提升。