阿里云开源Qwen-72B大模型,720亿参数大模型
2月1日,阿里云正式开源了通义千问720亿参数的大模型Qwen-72B。
据阿里官方信息,Qwen-72B基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。
阿里云CTO周靖人对此表示,开源生态对促进中国大模型的技术进步与应用落地至关重要。通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。
同时,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
此前,通义千问系列大模型于8月份开源了Qwen-7B和Qwen-7B-Chat,阿里云由此成为国内最早开源AI大模型的头部科技企业。9月,阿里云又开源了140亿参数模型Qwen-14B。
本次发布的Qwen-72B为迄今通义家族中最大规模的AI模型。至此,“通义”系列大模型家族中已开源了18亿、70亿、140亿、720亿参数规模的4款大语言模型。
早在11月8日举办的2023年世界互联网大会上,阿里巴巴集团CEO吴泳铭就曾预告过最新模型的开源消息,称即将开源720亿参数大模型,这将是国内参数规模最大的开源大模型。
不到一个月后,720亿参数大模型如约而至,但它已不是国内参数规模最大的开源大模型——就在11月27日,浪潮发布并开源“源2.0”基础大模型,包含1026亿、518亿、21亿三种参数规模。
相较之下,国际领先开源模型Llama系列中,最大的模型参数量为700亿(7月份发布)。
在过往一年的大模型市场争霸赛中,参数规模是各个玩家比拼的焦点之一。究其原因,大模型能力的基石,正是在以亿计算的参数规模训练下形成的质变。但要指出的是,业界普遍认为在达到性能质变的奇点后,参数规模与模型性能之间的关系将不再完全正相关。
一位大模型从业者告诉「市界」:“除了持续增加模型规模,我认为提高模型的可用性对现阶段的市场也很重要,比如通过模型压缩技术,让超大规模的大模型能够在客户的边缘端运行起来。因为很多领域并不需要超大规模的模型,相反超大规模的模型运行还可能带来资源的浪费。”
据他介绍,模型压缩领域存在模型量化、剪枝、知识蒸馏等多种技术,早期主要应用场景在边缘AI领域,旨在让模型能够运行在资源有限的嵌入式设备中,然而随着大模型AI对资源的高要求,模型压缩也变成了大模型推理优化的重要方向。