新物网

当前位置:首页 > 科技

科技

国内首个开源MoE大模型来了,性能媲美Llama 2-7B,计算量减少60%

时间:2024-01-12 19:15:07
2-7B模型,计算量却仅有40%。MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。同时,每次执行任务时选择的专家数量也是传统模型的2倍,所以总体使用的参数量也不变,但选择的自由度增加了。通过将这些共享知识压缩到共享专家中,可以减少其他专家之间的参数冗余,从而提高模型的参数效率。

国内首个开源MoE大模型来了,性能媲美Llama 2-7B,计算量减少60%

开源的MoE模型终于迎来第一位国内玩家!

其性能不逊色于密集的Llama 2-7B模型,但计算量仅为40%。

这个模型堪称十九面战士,尤其是在数学和编码能力方面,碾压Llama。

它是Deep 团队最新开源的160亿参数专家模型MoE。

除了优异的性能外,MoE 的主要关注点是节省计算量。

在这张性能-激活参数图中,它“单挑”出来,占据了左上角一大片空白区域。

发布仅一天后,团队在 X 上的推文就获得了大量转发和关注。

摩根大通的机器学习工程师在测试后也表示,MoE 的聊天版本性能略优于微软的“小模型”Phi-2。

同时,MoE还在网络上获得了300+颗星,并出现在Face文本生成模型排行榜首页。

那么,MoE具体表现如何呢?

01 计算量减少60%

目前推出的MoE版本拥有160亿个参数,实际激活参数数量约为28亿个。

与自己的7B密集模型相比,两者在19个数据集上的性能有所不同,但整体性能比较接近。

与同样是稠密模型的Llama 2-7B相比,MoE在数学、编码等方面也表现出明显的优势。

然而,两个密集模型的计算量每次都超过 4k token,但 MoE 只有 74.,仅为两者的 40%。

在20亿个参数下进行的性能测试表明,MoE也可以达到与1.5倍参数数的2.8B模型和相同MoE模型更少计算量相同或更好的结果。

此外,深度搜索团队还在SFT的基础上对除MoE之外的Chat版本进行了微调,其性能也接近自家的密集版本和Llama 2-7B。

此外,Deep 团队还透露,还有145B版本的MoE模型正在开发中。

阶段性初步测试表明,145B MoE相对于137B具有巨大优势,能够以28.5%的计算量实现与密集版67B模型相当的性能。

研发完成后,团队还将开源145B版本。

这些模型性能的背后是全新的自研MoE架构。

02 自主研发新MoE架构

首先是相比传统的MoE架构,它有更细粒度的专家划分。

当参数总数一定时,传统模型可以对N个专家进行分类,但有可能对2N个专家进行分类。

同时,每次执行任务选择的专家数量是传统模型的两倍,因此总体使用的参数数量保持不变,但选择的自由度增加。

这种分割策略允许激活专家更加灵活和自适应的组合,从而提高模型在不同任务上的准确性和知识获取的针对性。

除了专家划分上的差异外,还创新性地引入了“共享专家”的设置。

这些共享专家激活所有输入的令牌,并且不受路由模块的影响。 目的是捕获和整合不同背景下所需的共同知识。

通过将这些共享知识压缩为共享专家,可以减少其他专家之间的参数冗余,从而提高模型的参数效率。

共享专家的设置有助于其他专家更加专注于自己独特的知识领域,从而提高专家专业化的整体水平。

消融实验结果表明,两种方案对教育部“降本增效”都发挥了重要作用。

论文地址:

参考链接:

本文来自微信公众号“量子位”(ID:),作者:关注前沿科技,36氪授权发布。