中国移动将商用三个自主可控万卡集群,总规模近6万张GPU卡
DoNews4月28日消息,4月28日至29日,2024中国移动算力网络大会在苏州召开。中国移动副总经理高同庆在大会主论坛上发表了《打造大国算网重器 开启AI+时代新篇》的主题演讲。
高同庆指出,三年前,中国移动首次提出算力网络理念并付诸产业实践,走出一条以网强算的新路径。中国移动规划了“泛在协同”“融合统一”“一体内生”三个发展阶段,推动算力网络取得广泛共识,原创技术多点突破,核心理念和关键技术融入国家规划,上升为国家战新产业方向。当前,中国移动初步建成基础设施、技术能力和产品服务全面领先的算力网络,圆满完成算力网络1.0既定目标,全面启动2.0阶段工作,加速迈向3.0新阶段。
随着新一轮科技革命和产业变革,人工智能正升级为支撑经济社会转型不可或缺的基础设施和核心能力,加速从“+ AI”向“AI+”转变。算力将发挥越来越重要的作用,成为AI+时代产业升级、生产力跃迁的关键驱动力。
第一,国家提出新要求,全国一体化算力体系加快构建。随着东数西算走向纵深,算力网络发展按下加速键。中国移动作为国资央企责无旁贷,具备以网强算的路径优势、规模优势和技术优势,成为推动我国算力高质量发展的中坚力量。
第二,产业迎来新格局,智能算力正成为新增长极。随着生成式人工智能的不断发展,带动智算需求指数级增长,算力结构正在发生系统性质变,智能算力将成为未来主流的计算形态。
第三,技术呼唤新变革,算力技术迎来跨越式发展。为了解决算力的供需矛盾,一是摩尔定律的延续,让单点算力尽可能提升;二是扩展法则的应用,构建更大规模的算力集群,支撑模型参数从万亿跃升至十万亿;三是换道技术的涌现,各种流派百花齐放,推动计算科学飞速发展。
高同庆表示,面向AI+时代,当前算力网络正处于融合统一的攻坚期、泛在智能的跃升期、原创技术的突破期、产业生态的塑造期。中国移动将不忘推动算力成为社会级服务的初心,实现算力网络三个“质变”升级。
一是以“大规模智算集群”为核心,实现基础设施的质变。以网强算维度升级,从宏观拓展到微观,从算间拓展到算内,需要以智算集群为中心进一步优化网络基础设施,全面发挥集群效应,推动AI从单点突破迈向泛在智能。
二是以“算网大脑智能升级”为核心,实现编排调度的质变。推动算网大脑纳管更多资源,支撑更丰富业务,实现智能化升级、一体化调度、规模化商用。
三是以“融合统一算龙头”为核心,实现服务模式的质变。丰富任务式服务和智算服务,打造行业应用标杆,让千家万户、千行百业真正实现即取即用的“算力自由”。
高同庆指出,中国移动下一步将加速迈向3.0,全面支撑人工智能+。
第一,构建大集群,打造AI模型训练的超级工厂。
中国移动将持续优化算力网络资源总体布局,面向AI+升级,今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求;随着大模型训练逐渐转向大规模行业应用,泛在的推理需求持续涌现,中国移动将按需在1500个边缘节点部署推理算力,形成“中心大集群、边缘广分布、中训边推、训推一体”的智算网络。同时,中国移动将持续完善技术体系,推进全栈技术创新。一是突破堵点,加快迈向超万卡集群。面向机间互联,原创提出全调度以太技术体系(GSE),构建无阻塞、高带宽、超低时延的新型智算中心网络,对标国际主流的IB和UEC方案,形成中国自主的技术体系,今年将开展GSE中试,加速GSE关键技术和产业成熟;面向卡间互联,打造标准开放总线级互联架构,提升GPU卡间高带宽、低时延通信能力,实现互联拓扑和协议的全栈级优化,为标准开放的新型智算互联贡献中国方案。二是多元异构,构建融合开放的大算力生态。持续推进一云多芯的多样算力,打破AI芯片生态竖井,今年将升级“芯合”算力原生平台,支持智算应用在更多GPU芯片的快速迁移,同时还支持面向大模型的分布式异构混训,打破当前大模型仅能在单厂家单型号集群训练的局限。中国移动将进一步实现云底座关键技术突破,升级“大云天元”操作系统,商用推广云原生数据库、新一代SDN网络,今天也会推出新一代磐石DPU,打造一机多芯的磐石服务器,全面使能多样化智能算力。三是训推一体,打造开箱即用AI服务。自研智算平台,打造模型训练“自动化生产线”,实现AI模型全生命周期服务,支持全栈、全自主可控、全地域的资源统一管理调度,提供一站式开发工具箱,支持万卡并行训练、千卡15天以上稳定训练、分钟级断点续训,确保大模型训得好、快、稳。
这次大会期间,中国移动将发布《面向超万卡集群的新型智算技术白皮书》,与业界分享超万卡集群设计方案,共同应对技术挑战,助推国内智算基础设施迈上新台阶。
第二,畅通大动脉,构建AI数据流转的信息高速。
面向近期,中国移动充分发挥网络优势,加快打通国家枢纽集群间的400G高速互联链路,开放网络弹性能力,打造大带宽、广覆盖、低时延、智能化的新型运力网,进一步降低业务西迁成本,积极为国家枢纽节点内、节点间公共传输通道贡献力量。面向中长期,中国移动主导形成了“高通量、低时延、一体化”的多层次融合网络方案。一是高通量,针对长距离网络传输性能瓶颈,研发新型高吞吐传输协议,今年将与国家天文台、华大基因等开展联合验证,实现长距离、高吞吐、高弹性、广覆盖和高安全的数据快递服务;二是低时延,历时五年,联合产业攻关反谐振空芯光纤技术,设计自主结构,相比传统实芯光纤传输时延降低33%,今年将启动20公里中试验证,明年预计突破100公里,有望改变光通信产业格局;三是一体化,依托中国移动在IETF主导的算力路由技术体系,在路由中引入算力向量,实现联合优化调度,样机验证显示,业务平均时延降低15%,系统容量提升30%,今年将继续推动算力路由原创技术标准化,与视频监控、云渲染等场景结合开展中试验证。
第三,建强大中枢,研发AI任务分发的最强大脑。
算网大脑是基于网络的分布式算力任务分发系统,中国移动将在去年试商用基础上,实现全网调度能力和智能化水平的全面跃升。一是功能跃升,今年将纳管自有智算中心、边缘节点,广泛吸纳三方算力,实现通智边一体调度和全局数据高效流通,开放算网能力超过3000个,多要素能力实现ABCDNETS全覆盖;二是性能跃升,日调度次数从千万次提升到亿次,引入能效等更多维度,攻关解决高维组合优化问题,基于新型的并行算法,加快实现分布式跨集群任务的调度;三是服务能力跃升,融合九天算网大模型,创新AI交互式订购,实现个性化、智能化交互新模式,不断赋能算网新服务,推动属地化、单一式传统产品向全局化、复合式产品升级。
今天中国移动也有算网大脑相关的发布和行动,今年将加速算网大脑规模化商用,深度参与全国一体化算力网的国家级、枢纽级调度平台建设,打造行业最强大脑。
第四,塑造大产业,繁荣AI应用创新的热带雨林。
一是壮大创新根基,当前中国移动已经初步构建了覆盖国际、国内的算力网络标准体系,特别是在IETF成立的算力路由工作组,正在主导算网一体总体架构设计。未来中国移动将进一步健全标准体系,加快推动智算中心网络等标准制定,为全球标准贡献更多中国方案。
二是繁茂创新枝叶,加快未来产业、创新联合体打造,深化算力并网、任务式服务模式创新,激活AI+应用创新活力,完善商业模式。同时,中国移动正在加快构建集约高效的数联网,打造数据流通基础设施,让高质量数据“活起来、动起来、用起来”,支撑数据要素全国统一大市场。到今年底,中国移动算力并网规模将突破5EFLOPS,算网服务样板间超过80个,数联网交易节点落地超10个。
三是培育创新沃土,将以跨地域、跨主体的全国性算力网络试验科学装置为基础,联合更多产学研合作伙伴,支撑建设全国一体化算力网原型试验场,孵化更多算力网络新技术、新应用。同时,中国移动作为国资央企,将发挥在智算资源、安全、运营等方面优势,助力全社会方便、快捷的使用智算服务,打造一片AI创新的热带雨林。
高同庆指出,“我们正处于一个伟大的时代,算力网络和人工智能的交相辉映,正在催生人类文明发展新的拐点,我们不仅是见证者,更是参与者、创造者,它将重塑我们的生产、生活和社会治理方式,将会惠及在座的每一个人。中国移动愿意携手广大合作伙伴,全力以赴拥抱AI+时代,把握战新产业和未来产业发展机遇,为推进中国式现代化作出更大贡献。”