当前位置：首页 > 科技

科技

苏廉节：AI进入多模态时代AI人机交互丰富化

时间：2023-12-16 13:58:08 佚名

本报记者李玉洋上海报道12月7日，谷歌发布新模型Gemini 1.0系列

本报记者李玉洋上海报道

12月7日，谷歌发布新模型Gemini 1.0系列，该系列有三个尺寸版本（超大杯Gemini Ultra、大杯Gemini Pro和中杯Gemini Nano），被称作可以真正叫板GPT-4的模型。“这是我们迄今为止功能最强大、最通用的模型，在许多基准测试中都领先。”谷歌CEO桑达尔·皮查伊（Sundar Pichai）表示。

为显示Gemini强大的多模态能力，谷歌一段仅靠视觉和声音来驱动Gemini的视频演示，刷屏了全网并惊呆了很多人，一些评测指标上追平甚至超过OpenAI的多模态模型GPT-4V。然而，这段演示被指存在造假嫌疑，而谷歌方面的回应是“所有用户提示和输出都是真实的，只是为了简洁起见进行了缩短”。

尽管如此，研究机构Omdia人工智能首席分析师苏廉节对《中国经营报》记者表示：“谷歌是第一个把大模型和应用完美结合展示出来的公司，具有划时代的意义。像百度、谷歌、腾讯、Meta这种有大量消费者业务的企业，首要的目标应该是考虑怎么利用多模态将人机交互丰富化。”

“随着谷歌Gemini模型的发布，AI进入多模态时代。”这是外界对于谷歌新近发布大模型Gemini（中文名“双子座”）一个观察。苏廉节对这一看法表示认同。

多模态大模型已经是行业内公认的发展趋势之一。“这是很自然的趋势，文本处理完，就需要处理其他模态的能力，比如图像、声音。”AI算法专家、连续创业者黄颂表示，谷歌Gemini的推出对于多模态大模型的发展具有促进意义。中信证券研报指出，短期来看，Gemini将进一步激发市场对多模态模型的期待，对产业而言，多模态也将带动算力需求的提升。

原生多模态有多强？

目前业界比较公认的是，谷歌Gemini是真正能与GPT-4正面硬刚的模型，就算存在自吹自擂的成分。

根据谷歌的说法，Gemini Ultra在30项大模型能力测试中超过此前最强的大模型GPT-4，在检验大模型数学、历史、物理、法律等57个学科知识水平的MMLU（大规模多任务语言理解）测试中得分率达到90%，是第一个超过人类专家的模型。此外，在推理、数学和编码等几个评判大模型真正能力的测试中，Gemini Ultra几乎全面领先GPT-4。

需要指出的是，Gemini Ultra要到2024年才会向公众开放，它的真实效果还有待验证。皮查伊解释称，花更多时间是为了进行严格的安全测试，并挖掘它真正的功能。事实上，OpenAI在训练完GPT-4后，也花了半年时间做类似的事情。

Gemini Pro则会成为谷歌聊天机器人Bard背后的模型，替换原来的PaLM 2模型，一些开发者测试后发现，效果要比原来的好，但与GPT-4仍有不小的差距，大致相当于GPT-3.5的水平。

而Gemini Nano将搭载于谷歌手机Pixel 8 Pro，是一个定位在端侧的模型。据悉，Android开发者已能在Pixel 8 Pro上使用Gemini Nano开发应用，用户也可以用它总结录音纪要等。

撇开谷歌的自我宣传，科技圈大佬也对谷歌Gemini模型做出了较高评价。比如Meta的AI框架PyTorch联合创始人Soumich Chintala表示：“（Gemini）似乎在基准测试上可以硬刚GPT-4。谷歌拥有客户基础，无须担心模型采纳问题。而且谷歌将使用TPU进行推理，因此不必像OpenAI和微软那样支付给NVIDIA 70%的利润（直到它们的芯片准备好并投入生产）。”

在谈到“谷歌Gemini和GPT-4谁更强”时，360集团创始人、董事长周鸿祎表示：“谷歌的商业模式靠搜索和广告，做大模型等于左手打右手，所以没有全力做，这才给了OpenAI表现的机会。现在谷歌想明白了，与其被人打死不如主动转变。”

“从长期看，谷歌赶上GPT-4绰绰有余，毕竟是做搜索出身，有数据优势，有大量的知识积累和沉淀。搜索和大模型融合，能让大模型变得更实时，知识更全面更准确，搜索本身也会变得更智能。”周鸿祎称。

原生多模态，是谷歌Gemini的主要特色。与之形成对比的是，OpenAI的文字、图像和语音的模型分别是GPT-3.5/4、DALL-E和Whisper，直到三个月前低调发布的GPT-4V才能做多模态任务。

“谷歌Gemini模型的核心优势，在于其原生多模态的特性。”黄颂指出，多模态大模型已是大模型发展的明确趋势之一，Gemini的到来会刺激国内公司加速研发。

业内人士普遍认为，多模态是生成式AI下一步的重点方向，百花齐放的应用场景有待继续探索。苏廉节也表示：“目前的主流人工智能应用都是以文本和语音为主，包括现在最火的类ChatGPT应用也是用语言来交互，像百度、谷歌、腾讯、Meta这种有大量面向消费者业务的企业，首要的目标应该是要考虑怎么利用多模态将人机交互丰富化。”

东方证券研报认为，现阶段大语言模型的竞争已经非常激烈，从技术突破的角度来看，下一阶段的重点攻克方向必然是多模态技术。能真正处理和应用好多模态AI能力，才能真正打通物理世界和数字世界的障壁，用最基础的感知世界能力直接生成操作，实现与物理世界最自然的交互。

算力需求将进一步增长

“这是属于非常前沿的科技，就算谷歌Gemini展示出的能力也是经过精心调教的，没有那么顺其自然。”苏廉节指出，多模态的意义就在于，为AI应用带来了更多可能性，是通用人工智能（AGI）发展的关键。

在Gemini技术文档和公开发言中，谷歌高管多次强调目前只是1.0版本，明年还会发布更先进的大模型。这显示出“没抢在ChatGPT前发布Bard”的谷歌，正在挽回自己在新一轮AI浪潮中的落后局面。

今年3月GPT-4发布之后，谷歌把两个人工智能部门DeepMind和Google Brain合并，并让DeepMind的创始人Demis Hassabis来领导新部门，主要使命就是牵头研发多模态大模型Gemini。

相比于大语言模型，多模态大模型对算力的消耗呈指数级增长趋势。国泰君安研报认为，当前多模态大模型仍在不断迭代，训练阶段的算力将保持增长。根据测算，GPT-4对于算力的需求在同等训练时长下相比GPT-3增长445倍。而根据谷歌内部消息，Gemini有万亿参数，训练所用的算力达到GPT-4的5倍。

只不过，有别于其他大模型对英伟达硬件及生态的依赖，Gemini训练所需的算力基于谷歌自研的TPU V4和V5e等硬件。在推出新模型的同时，谷歌宣布推出迄今为止功能最强大、最高效、可扩展性最强的TPU系统Cloud TPU V5p，将用于开发更高层次的AI大模型。

“对于人工智能基础设施而言，系统能力比微架构更加重要。”芯片研究机构 Semianalys 的首席分析师迪伦·帕特尔（Dylan Patel）表示，谷歌擅长把上千块AI芯片连接在一起，组成一个强大的算力平台。

此外，谷歌还拥有围绕TPU的软硬件集成能力、研发出大模型基础技术的Transformer等基础实力，通过软硬件高度集成能力，做出一个能替代英伟达的方案，不是难事。谷歌云高管阿明·瓦赫达（Amin Vahdat）表示：“借助 TPU V5p，可以让他们更划算地利用人工智能。”据悉，Salesforce、Lightrick等客户已经在使用谷歌云的TPU V5p超级计算机来训练大模型。

事实上，英伟达GPU作为2023年最紧俏的AI硬件，已经被各大科技巨头瓜分殆尽。根据Omdia近期发布的一份半导体研究报告，微软和Meta位居榜首，双双从英伟达购买了15万块H100 GPU。

从第三名开始，购买数量开始断崖式下跌。谷歌、亚马逊和甲骨文等公司各抢到了5万块GPU。其中，谷歌通过自研的张量处理单元弥补了一些芯片需求。国内科技巨头也是英伟达GPU的大客户，比如腾讯购买了5万块H800，百度和阿里巴巴分别购买了3万和2.5万块GPU。

Omdia的报告还显示，今年向英伟达采购 H100（或 H800）最多的12家客户里，有4家公司来自中国（分别是腾讯、百度、阿里和字节跳动）。

另一方面，英伟达也是动作频频。据Omdia统计，被称为“算力黄牛”的公司CoreWeave获得了4万块GPU，仅比谷歌少了1万块。而据华尔街见闻的报道，英伟达瞄准云服务领域后看上了CoreWeave，联手谷歌来扶持这家公司。

即使在H100紧缺的情况下，英伟达还是把大量的新卡分配给了CoreWeave，并直接参与投资。今年4月，在CoreWeave 4.21亿美元B轮融资中，英伟达成为了主要参与者，让CoreWeave估值升至20亿美元。

近期，英伟达CEO黄仁勋先后走访日本、新加坡、马来西亚和越南，跟当地政府和大企业谈合作、建AI基地。此前，黄仁勋还在今年9月和10月去了印度和中国台湾，合作对象分别是信实工业、塔塔和富士康。

国泰君安研报认为，训练成本持续高企，算力租赁商业模式具备可行性，短期持续看好算力以及算力租赁赛道。“AI算力有望超越普通算力服务市场，2023年格局分散。AI算力租赁市场规模有望超过普通算力服务市场，规模达到数千亿元。”东吴证券也指出。

市场广阔的算力租赁市场，吸引了众多玩家涌入。数据显示，近十年，我国算力基础设施相关企业呈逐年高速增长态势。2020年、2021年、2022年分别新增47.85万家、76.97万家、80.14万家，同比增长52.62%、60.85%、4.11%。天眼查数据显示，截至目前，今年我国算力基础设施相关企业注册量达86.66万家，已超去年全年注册量，其中今年前十个月新增80.27万家，同比增长20.48%。

新物网

新物网

科技

苏廉节：AI进入多模态时代AI人机交互丰富化

相关文章