新物网

当前位置:首页 > 科技

科技

阿里云弹性计算全新升级:CPU上运行推理,模型构建成本降低50% | 最前沿

时间:2024-01-15 12:46:17
g8i实例进行了升级优化,让大模型跑在CPU上,并有效降低了模型搭建成本。有了加速能力之后,模型推理过程在CPU上也能跑通,大大降低了大模型搭建和推理成本。根据阿里云的测试,通过CPU做超高并发,可以充分利用算力,进行长时间计算和推理。

阿里云弹性计算全新升级:CPU上运行推理,模型构建成本降低50% | 最前沿

作者|吴晶晶

编辑|唐艳

1月11日,阿里云升级第八代企业级通用计算实例ECS g8i产品。 新产品基于英特尔2023年12月发布的第五代至强可扩展处理器和阿里云自研的“飞天+CIPU”架构构建。

升级后,新产品将在算力、网络、性能、应用场景等方面都有提升:

面对当前大模型的火爆需求,新升级的ECS g8i实例进行了升级优化,让大模型可以在CPU上运行,有效降低模型构建成本。

这意味着大型车型商业化的新尝试。 一般来说,CPU 在浮点、并行维度和内存带宽方面与 GPU 能力相差甚远。 在 CPU 上运行模型很困难。

在技​​术方面,ECS g8i做出了新的尝试。 为了解决首包时延和吞吐性能等技术问题,ECS g8i实例进行了针对性的技术优化。 其内置指令集升级为Intel AMX高级矩阵扩展加速技术,可以加速模型运算。

有了加速能力,模型推理过程也可以在CPU上运行,大大降低了构建大型模型和推理的成本。 此外,CPU比GPU更容易获得、价格也更便宜,因此这也为解决算力短缺问题开辟了新的可能性。

阿里云弹性计算产品线总经理张先涛表示:“g8i能够更快地响应中小型参数模型,在运行知识检索、问答系统、摘要生成等AI工作负载时,相比A10 GPU云服务器,初期建设成本降低50%。”

阿里云全新发布ECS g8i产品

目前,在CPU上,ECS g8i不仅可以支持中小型模型的推理计算,还可以支持72B参数级别的大型语言模型的分布式推理。 以阿里云统一钱文开源的Qwen-72B大型模型为例。 它可以在 g8i 实例的 eRDMA 网络上构建的集群中高效运行。 当输入小于500字时,首包延迟小于3秒,每秒可生成7个。 令牌。

此外,ECS g8i还可以支持超过大参数规模的AI模型负载,涵盖目前市场上的各种类型模型,例如图、AI生成代码、虚拟助手、创意辅助工具等。

在模型的实际实施中,必须根据场景的需求综合考虑效果和成本。 根据阿里云的测试,通过CPU的超高并发可以充分利用算力进行长时间的计算和推理。 目前ECS g8i在一些实时性要求不高的离线场景中已经取得了不错的效果,比如创意广告生成、离线视频摘要生成等AI功能。