新物网

当前位置:首页 > 科技

科技

苏廉节:AI进入多模态时代AI人机交互丰富化

时间:2023-12-16 13:58:08 佚名
本报记者 李玉洋 上海报道12月7日,谷歌发布新模型Gemini 1.0系列

本报记者 李玉洋 上海报道

12月7日,谷歌发布新模型Gemini 1.0系列,该系列有三个尺寸版本(超大杯Gemini Ultra、大杯Gemini Pro和中杯Gemini Nano),被称作可以真正叫板GPT-4的模型。“这是我们迄今为止功能最强大、最通用的模型,在许多基准测试中都领先。”谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示。

为显示Gemini强大的多模态能力,谷歌一段仅靠视觉和声音来驱动Gemini的视频演示,刷屏了全网并惊呆了很多人,一些评测指标上追平甚至超过OpenAI的多模态模型GPT-4V。然而,这段演示被指存在造假嫌疑,而谷歌方面的回应是“所有用户提示和输出都是真实的,只是为了简洁起见进行了缩短”。

尽管如此,研究机构Omdia人工智能首席分析师苏廉节对《中国经营报》记者表示:“谷歌是第一个把大模型和应用完美结合展示出来的公司,具有划时代的意义。像百度、谷歌、腾讯、Meta这种有大量消费者业务的企业,首要的目标应该是考虑怎么利用多模态将人机交互丰富化。”

“随着谷歌Gemini模型的发布,AI进入多模态时代。”这是外界对于谷歌新近发布大模型Gemini(中文名“双子座”)一个观察。苏廉节对这一看法表示认同。

多模态大模型已经是行业内公认的发展趋势之一。“这是很自然的趋势,文本处理完,就需要处理其他模态的能力,比如图像、声音。”AI算法专家、连续创业者黄颂表示,谷歌Gemini的推出对于多模态大模型的发展具有促进意义。中信证券研报指出,短期来看,Gemini将进一步激发市场对多模态模型的期待,对产业而言,多模态也将带动算力需求的提升。

原生多模态有多强?

目前业界比较公认的是,谷歌Gemini是真正能与GPT-4正面硬刚的模型,就算存在自吹自擂的成分。

根据谷歌的说法,Gemini Ultra在30项大模型能力测试中超过此前最强的大模型GPT-4,在检验大模型数学、历史、物理、法律等57个学科知识水平的MMLU(大规模多任务语言理解)测试中得分率达到90%,是第一个超过人类专家的模型。此外,在推理、数学和编码等几个评判大模型真正能力的测试中,Gemini Ultra几乎全面领先GPT-4。

需要指出的是,Gemini Ultra要到2024年才会向公众开放,它的真实效果还有待验证。皮查伊解释称,花更多时间是为了进行严格的安全测试,并挖掘它真正的功能。事实上,OpenAI在训练完GPT-4后,也花了半年时间做类似的事情。

Gemini Pro则会成为谷歌聊天机器人Bard背后的模型,替换原来的PaLM 2模型,一些开发者测试后发现,效果要比原来的好,但与GPT-4仍有不小的差距,大致相当于GPT-3.5的水平。

而Gemini Nano将搭载于谷歌手机Pixel 8 Pro,是一个定位在端侧的模型。据悉,Android开发者已能在Pixel 8 Pro上使用Gemini Nano开发应用,用户也可以用它总结录音纪要等。

撇开谷歌的自我宣传,科技圈大佬也对谷歌Gemini模型做出了较高评价。比如Meta的AI框架PyTorch联合创始人Soumich Chintala表示:“(Gemini)似乎在基准测试上可以硬刚GPT-4。谷歌拥有客户基础,无须担心模型采纳问题。而且谷歌将使用TPU进行推理,因此不必像OpenAI微软那样支付给NVIDIA 70%的利润(直到它们的芯片准备好并投入生产)。”

在谈到“谷歌Gemini和GPT-4谁更强”时,360集团创始人、董事长周鸿祎表示:“谷歌的商业模式靠搜索和广告,做大模型等于左手打右手,所以没有全力做,这才给了OpenAI表现的机会。现在谷歌想明白了,与其被人打死不如主动转变。”

“从长期看,谷歌赶上GPT-4绰绰有余,毕竟是做搜索出身,有数据优势,有大量的知识积累和沉淀。搜索和大模型融合,能让大模型变得更实时,知识更全面更准确,搜索本身也会变得更智能。”周鸿祎称。

原生多模态,是谷歌Gemini的主要特色。与之形成对比的是,OpenAI的文字、图像和语音的模型分别是GPT-3.5/4、DALL-E和Whisper,直到三个月前低调发布的GPT-4V才能做多模态任务。

谷歌Gemini模型的核心优势,在于其原生多模态的特性。”黄颂指出,多模态大模型已是大模型发展的明确趋势之一,Gemini的到来会刺激国内公司加速研发。

业内人士普遍认为,多模态是生成式AI下一步的重点方向,百花齐放的应用场景有待继续探索。苏廉节也表示:“目前的主流人工智能应用都是以文本和语音为主,包括现在最火的类ChatGPT应用也是用语言来交互,像百度、谷歌、腾讯、Meta这种有大量面向消费者业务的企业,首要的目标应该是要考虑怎么利用多模态将人机交互丰富化。”

东方证券研报认为,现阶段大语言模型的竞争已经非常激烈,从技术突破的角度来看,下一阶段的重点攻克方向必然是多模态技术。能真正处理和应用好多模态AI能力,才能真正打通物理世界和数字世界的障壁,用最基础的感知世界能力直接生成操作,实现与物理世界最自然的交互。

算力需求将进一步增长

“这是属于非常前沿的科技,就算谷歌Gemini展示出的能力也是经过精心调教的,没有那么顺其自然。”苏廉节指出,多模态的意义就在于,为AI应用带来了更多可能性,是通用人工智能(AGI)发展的关键。

在Gemini技术文档和公开发言中,谷歌高管多次强调目前只是1.0版本,明年还会发布更先进的大模型。这显示出“没抢在ChatGPT前发布Bard”的谷歌,正在挽回自己在新一轮AI浪潮中的落后局面。

今年3月GPT-4发布之后,谷歌把两个人工智能部门DeepMind和Google Brain合并,并让DeepMind的创始人Demis Hassabis来领导新部门,主要使命就是牵头研发多模态大模型Gemini。

相比于大语言模型,多模态大模型对算力的消耗呈指数级增长趋势。国泰君安研报认为,当前多模态大模型仍在不断迭代,训练阶段的算力将保持增长。根据测算,GPT-4对于算力的需求在同等训练时长下相比GPT-3增长445倍。而根据谷歌内部消息,Gemini有万亿参数,训练所用的算力达到GPT-4的5倍。

只不过,有别于其他大模型英伟达硬件及生态的依赖,Gemini训练所需的算力基于谷歌自研的TPU V4和V5e等硬件。在推出新模型的同时,谷歌宣布推出迄今为止功能最强大、最高效、可扩展性最强的TPU系统Cloud TPU V5p,将用于开发更高层次的AI大模型

“对于人工智能基础设施而言,系统能力比微架构更加重要。”芯片研究机构 Semianalys 的首席分析师迪伦·帕特尔(Dylan Patel)表示,谷歌擅长把上千块AI芯片连接在一起,组成一个强大的算力平台。

此外,谷歌还拥有围绕TPU的软硬件集成能力、研发出大模型基础技术的Transformer等基础实力,通过软硬件高度集成能力,做出一个能替代英伟达的方案,不是难事。谷歌云高管阿明·瓦赫达(Amin Vahdat)表示:“借助 TPU V5p,可以让他们更划算地利用人工智能。”据悉,Salesforce、Lightrick等客户已经在使用谷歌云的TPU V5p超级计算机来训练大模型

事实上,英伟达GPU作为2023年最紧俏的AI硬件,已经被各大科技巨头瓜分殆尽。根据Omdia近期发布的一份半导体研究报告,微软和Meta位居榜首,双双从英伟达购买了15万块H100 GPU。

从第三名开始,购买数量开始断崖式下跌。谷歌、亚马逊和甲骨文等公司各抢到了5万块GPU。其中,谷歌通过自研的张量处理单元弥补了一些芯片需求。国内科技巨头也是英伟达GPU的大客户,比如腾讯购买了5万块H800,百度和阿里巴巴分别购买了3万和2.5万块GPU。

Omdia的报告还显示,今年向英伟达采购 H100(或 H800)最多的12家客户里,有4家公司来自中国(分别是腾讯、百度、阿里和字节跳动)。

另一方面,英伟达也是动作频频。据Omdia统计,被称为“算力黄牛”的公司CoreWeave获得了4万块GPU,仅比谷歌少了1万块。而据华尔街见闻的报道,英伟达瞄准云服务领域后看上了CoreWeave,联手谷歌来扶持这家公司。

即使在H100紧缺的情况下,英伟达还是把大量的新卡分配给了CoreWeave,并直接参与投资。今年4月,在CoreWeave 4.21亿美元B轮融资中,英伟达成为了主要参与者,让CoreWeave估值升至20亿美元。

近期,英伟达CEO黄仁勋先后走访日本、新加坡、马来西亚和越南,跟当地政府和大企业谈合作、建AI基地。此前,黄仁勋还在今年9月和10月去了印度和中国台湾,合作对象分别是信实工业、塔塔和富士康。

国泰君安研报认为,训练成本持续高企,算力租赁商业模式具备可行性,短期持续看好算力以及算力租赁赛道。“AI算力有望超越普通算力服务市场,2023年格局分散。AI算力租赁市场规模有望超过普通算力服务市场,规模达到数千亿元。”东吴证券也指出。

市场广阔的算力租赁市场,吸引了众多玩家涌入。数据显示,近十年,我国算力基础设施相关企业呈逐年高速增长态势。2020年、2021年、2022年分别新增47.85万家、76.97万家、80.14万家,同比增长52.62%、60.85%、4.11%。天眼查数据显示,截至目前,今年我国算力基础设施相关企业注册量达86.66万家,已超去年全年注册量,其中今年前十个月新增80.27万家,同比增长20.48%。