当前位置：首页 > 互联网

互联网

阿里云开源Qwen-72B大模型，720亿参数大模型

时间：2023-12-01 16:51:51 小新

2月1日，阿里云正式开源了通义千问720亿参数的大模型Qwen-72B。据阿里官方信息，Qwen-72B基于3T tokens高质量数据训练，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超

2月1日，阿里云正式开源了通义千问720亿参数的大模型Qwen-72B。

据阿里官方信息，Qwen-72B基于3T tokens高质量数据训练，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。

阿里云CTO周靖人对此表示，开源生态对促进中国大模型的技术进步与应用落地至关重要。通义千问将持续投入开源，希望成为“AI时代最开放的大模型”，与伙伴们共同促进大模型生态建设。

同时，通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。

此前，通义千问系列大模型于8月份开源了Qwen-7B和Qwen-7B-Chat，阿里云由此成为国内最早开源AI大模型的头部科技企业。9月，阿里云又开源了140亿参数模型Qwen-14B。

本次发布的Qwen-72B为迄今通义家族中最大规模的AI模型。至此，“通义”系列大模型家族中已开源了18亿、70亿、140亿、720亿参数规模的4款大语言模型。

早在11月8日举办的2023年世界互联网大会上，阿里巴巴集团CEO吴泳铭就曾预告过最新模型的开源消息，称即将开源720亿参数大模型，这将是国内参数规模最大的开源大模型。

不到一个月后，720亿参数大模型如约而至，但它已不是国内参数规模最大的开源大模型——就在11月27日，浪潮发布并开源“源2.0”基础大模型，包含1026亿、518亿、21亿三种参数规模。

相较之下，国际领先开源模型Llama系列中，最大的模型参数量为700亿（7月份发布）。

在过往一年的大模型市场争霸赛中，参数规模是各个玩家比拼的焦点之一。究其原因，大模型能力的基石，正是在以亿计算的参数规模训练下形成的质变。但要指出的是，业界普遍认为在达到性能质变的奇点后，参数规模与模型性能之间的关系将不再完全正相关。

一位大模型从业者告诉「市界」：“除了持续增加模型规模，我认为提高模型的可用性对现阶段的市场也很重要，比如通过模型压缩技术，让超大规模的大模型能够在客户的边缘端运行起来。因为很多领域并不需要超大规模的模型，相反超大规模的模型运行还可能带来资源的浪费。”

据他介绍，模型压缩领域存在模型量化、剪枝、知识蒸馏等多种技术，早期主要应用场景在边缘AI领域，旨在让模型能够运行在资源有限的嵌入式设备中，然而随着大模型AI对资源的高要求，模型压缩也变成了大模型推理优化的重要方向。