新物网

当前位置:首页 > 科技

科技

大模型 AI 框架昇思 MindSpore 2.3.RC1 发布 训练、推理性能大幅提升 JIT 编译强化

时间:2024-04-24 18:01:36 小新新
经过社区开发者们几个月的开发与贡献,现正式发布昇思 MindSpore2.3.RC1 版本,通过多维混合并行以及确定性 CKPT 来实现超大集群的高性能训练,支

经过社区开发者们几个月的开发与贡献,现正式发布昇思 MindSpore2.3.RC1 版本,通过多维混合并行以及确定性 CKPT 来实现超大集群的高性能训练,支持大模型训推一体架构,大模型开发训练推理更简、更稳、更高效,并在训推一体框架的基础上通过多样的大模型推理优化技术,进一步降低大模型推理成本;通过使能 kernel by kernel 调度执行,进一步提升静态图调试调优能力;持续升级 MindSpore TransFormers 大模型套件和 MindSpore One 生成式套件,全流程开箱即用,一周即可完成大模型全流程的开发、验证;创新 AI + 科学计算(科学智能)范式,孵化科学领域基础大模型;下面就带大家详细了解下 2.3.RC1 版本的关键特性。

1、大模型训练:细粒度多副本并行,有效提升计算通信并发度,显著提升大模型训练性能

大模型训练下,为了降低显存开销,广泛的使用算子级并行技术,其中引入了大量的模型并行的通信,极大地影响了大模型的训练效率。模型并行的通信,从网络的结构上来看,其处于正反向计算过程中,阻塞正反向计算,无法与正反向的计算进行互相掩盖。为了解决模型并行通信的掩盖问题,MindSpore 提出了多副本并行技术。

在旧版本的 MindSpore 上,通过将网络从数据开始进行拆分,如下图所示,在单张卡内,通过 slice 算子将 Batch 维度进行拆分,进而产生多个分支,这多个分支的计算与通信互相之间没有依赖,存在并发的空间,通过执行序调度算法,控制多个分支的计算与通信进行并发。