谷歌深夜忽然发力,宣布发布最强AI模型Gemini
DoNews12月7日消息,在OpenAI的ChatGPT发布一年之后,谷歌终于不甘示弱,在北京时间12月7日凌晨忽然宣布发布其规模最大、能力最强的 AI 多模态模型 Gemini 1.0。
Gemini 最早公布于 2023 年 5 月的谷歌 I/O 全球开发者大会,由谷歌收购来的 DeepMind 打造,也就是打败李世石的团队。
Gemini 原计划将在秋季发布,但此前传出谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)因为 Gemini 在非英语体系中的表现欠佳而宣布发布推迟,现在看来他不准备再等了。
据悉,Gemini 1.0 针对不同尺寸进行了优化,分别是:Ultra、Pro 和 Nano(超大杯,大杯和迷你杯)。
其中 Gemini Ultra 适用于高度复杂的任务;Gemini Pro 是通用版,而 Gemini Nano 则被用于各种客户端设备。
根据谷歌方面的计划,Pro大杯和Nano迷你杯即日推出,而Ultra超大杯则要等到明年。
根据谷歌方面公布的数据,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。
Gemini Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型。
MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。
在新的 MMMU 基准测试中,Gemini Ultra 也取得了得分率为 59.4% 的优异成绩,该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。
谷歌方面宣称,Gemini 1.0 主要在以下方面拥有优势:
复杂的推理:Gemini 1.0 具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容。
理解文本、图像、音频及更多:Gemini 1.0 经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理,例如识别手写的文字和公式等。
高级编码能力:第一代%20Gemini%20可以理解、解释和生成世界上最流行的编程语言(如%20Python、Java、C++%20和%20Go)的高质量代码。
它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。
这样一个功能强大的大模型是如何训练出来的?据谷歌公布,其使用了自行设计研发的TPUs%20v4%20和%20v5e。
所谓的TPU就是张量处理单元(Tensor%20Processing%20Units),这些定制设计的%20AI%20加速器一直是%20Google%20服务数十亿用户的%20AI%20赋能产品的核心,如%20Search、YouTube、Gmail、Google%20Maps、Google%20Play%20和%20Android。它们还使得世界各地的公司能够经济高效地训练大规模的%20AI%20模型。
与此同时,谷歌还发布了迄今为止功能最强大、效率最高且可扩展性最强的 TPU 系统 Cloud TPU v5p,旨在为训练前沿 AI 模型提供支持。
新一代 TPU 将加速 Gemini 的开发,帮助开发者和企业客户更快地训练大规模生成式 AI 模型,从而更快推出新产品和新功能。
据谷歌方面公布,Gemini 1.0 将在多种产品和平台上推出:
即日起,Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划和理解等。这是 Bard 自推出以来最大的升级。
它将在 170 多个国家和地区提供英语服务,并且谷歌计划在未来几个月内扩展不同的模态,并支持新的语言和地区。
谷歌还在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机,它可以支持录音应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能,从 WhatsApp 开始,2024 年还将推出更多信息应用。
未来几个月,Gemini 将应用于谷歌更多的产品和服务,如 Search、Ads、Chrome 和 Duet AI。
谷歌已经开始在 Search 中试验 Gemini,它能够为用户提供更快的搜索生成体验(SGE),用户在美国的英语搜索延迟降低了 40%,同时在质量方面也有所提高。
2024年年初,谷歌还将推出内置 Gemini Ultra 的 Bard Advanced。