新物网

当前位置:首页 > 科技

科技

“存储与计算一体化”是突破大模型AI芯片的关键?

时间:2024-01-08 15:27:56
大模型呼唤“存算一体”特别是针对大模型的推理,存算一体保持权重的特点与大模型中大规模的参数部署需求相匹配,可能是存算一体技术最先服务大模型应用的场景之一。全球的存算一体玩家,主要可以划分为两大阵营:不过,大模型的到来,必将极大推动存算一体的技术落地,其未来应用潜力和部署规模都让人期待。

“存储与计算一体化”是突破大模型AI芯片的关键?

在人工智能发展史上,有过两次“圣杯时刻”。

第一次发生在2012年10月,卷积神经网络(CNN)算法以比人眼识别更低的错误率开启了计算机视觉的应用。

第二次是2016年3月,当时开发的AI程序击败了世界围棋冠军李世石,让世人惊叹“人工智能”的力量。

这两个“圣杯时刻”的背后,是芯片的创新。 英伟达适应通用算法的GPGPU(通用图形处理单元)芯片和谷歌走专用路线的TPU(张量处理单元)芯片在这两大发展中都大放异彩。

如今,大型车型的崛起正接近第三个“圣杯时刻”。 但随着模型参数越来越大,芯片在提供算力支持方面逐渐陷入瓶颈。

数据显示,在GPT-2之前的模型时代,GPU显存仍然可以满足大型AI模型的需求。

近年来,随着模型的大规模发展和应用,模型尺寸平均每两年增长240倍,GPT-3等大型模型的参数增长超过了GPU显存的增长。

随着大算力需求的激增,越来越多的业内人士意识到,新的计算架构可能是突破算力差距的关键。

芯片发展面临“三座大山”

当前AI技术的快速更新迭代对芯片提出了多重挑战,尤其是“存储墙”、“能耗墙”、“编译墙”三座大山无法逾越。

首先,在传统的冯·诺依曼架构下,芯片在执行计算密集型任务时面临“存储墙”问题。 这导致计算芯片的功耗和性能受到处理器和存储器之间的数据传输的限制。 这严重限制了AI芯片在计算规模、密度、效率等方面的提升。

其次,由于“存储墙”的存在,数据需要频繁移动,在存储和计算单元之间来回传输,导致电力损耗严重,撞上“能源墙”。

Intel的研究表明,当半导体工艺达到7nm时,数据传输功耗高达35pJ/bit,占总功耗的63.7%。 另统计显示,在大算力的AI应用中,数据传输操作消耗了90%的时间和功耗,数据传输的功耗是操作的650倍。

最后,“编译墙”隐藏在两者之间。 在很短的时间内传输的大量数据使得编译器不可能以静态和可预测的方式优化整个运算符、函数、程序或网络。 手动优化也非常耗时且昂贵。 很多时间。

过去,随着先进制造工艺的不断突破,这三座“大山”的短板也可以通过快速提升的计算能力来弥补。

但一个残酷的现实是,过去几十年来,通过工艺改进来改善芯片算力问题的“老方法”正在逐渐失效——

摩尔定律正在接近物理极限,HBM、3D DRAM、更好的互连等传统“解决方案”也正在“治标不治本”。 缩小晶体管变得越来越困难,在降低功耗的同时提高计算性能的道路也变得越来越艰难。 艰辛。

随着大模型时代的到来,数据计算量的激增,无疑进一步放大了“三堵墙”的影响。

大模型呼唤“存储与计算一体化”

大型模型的出现加剧了AI对大规模芯片算力的需求。 单纯按照传统技术路线堆叠芯片并不能实现预期的算力规模增长。

与此同时,芯片能效问题也变得更加突出。 当前AI芯片的能效仍然较低,大型模型每次训练和推理的电费昂贵,导致当前大型模型的经济性应用不高。

虽然现在很多大型模型训练都使用GPU,但GPU架构的演进并没有解决大计算能力和大型模型的挑战。

一方面,存储在GPU中所占的比例越来越大。 从GPU架构的演进趋势可以看出,存储在计算芯片中所占的比例越来越大。 计算芯片已经从以计算单元为核心,发展到以存储/数据流为核心的架构设计理念。

另一方面,数据传输功耗仍然是提高算力和算力密度的瓶颈,这本质上是冯·诺依曼计算机架构计算与存储分离设计造成的。

一般来说,大型模型对计算能力的需求呈指数级增长,但GPU价格昂贵且功耗高。 GPU集群的线性度也会随着规模的增加而降低。 对非冯诺依曼架构的探索已经变得非常流行。

AMD特斯拉三星、阿里巴巴等公司都曾公开表示,下一代技术储备和演进的方向是在“存储计算一体化”技术架构中寻找新的发展动能。

例如,阿里巴巴达摩院曾表示,与传统CPU计算系统相比,存储计算一体化芯片性能可提升10倍以上,能效可提升300倍以上。

那么,“存储计算一体化”技术有哪些优势呢?

存储与计算一体化不同于经典的冯·诺依曼架构。 它将计算能力嵌入内存中,将存储单元和计算单元合二为一,消除了计算过程中的数据传输环节,消除了数据传输带来的问题。 功耗和延迟,从而进一步提高计算能效。

同时,由于计算编程模型减少,编译器也可以感知各层的数据状态,编译效率将大大提高,“编译墙”问题也得到解决。 具体来说:

一、计算性能更高

存储计算集成芯片的计算能力取决于存储器的容量规模。 所有电子设备都将集成存储器。 存储和计算齐头并进。 凡是有计算的地方,就需要存储数据。

如果采用存储计算一体化芯片,随着存储容量的增加,其计算能力也会随之增强。

其次,功耗更低

由于数据传输路径的优化,存储与计算一体化技术不仅提高了传输效率,而且节省了数据传输的损耗,带来更好的能效和低功耗。 同等算力下,AI部分的能效比将提升2-3个数量级,从而带来更低的散热成本和更高的可靠性。

最后,成本更低

单位算力成本远低于传统计算芯片。 同时,存储计算一体化可以采用更加成熟的制造工艺,而大算力的芯片往往需要先进的工艺,这使得存储计算一体化芯片的晶圆成本要低很多。

考虑到配套的外围芯片、元器件等因素,整个系统的成本将降低5倍左右。

正是由于这些基础设施创新带来的性能提升,存储与计算融合技术有望在很大程度上解决大型AI模型面临的算力挑战。

特别是对于大型模型的推理,集成存储和计算维护权重的特点符合大型模型中大规模参数部署的要求。 这可能是存储计算一体化技术最早服务于大型模型应用的场景之一。

“存储与计算融合”有多种路径

目前,全球存储和计算玩家主要分为两大阵营:

第一类是国际巨头,如英特尔、IBM、特斯拉三星、阿里巴巴等,这些巨头较早布局存储和计算技术,代表未来的磁存储器(MRAM)、忆阻器(RRAM)等产品内存的趋势也随之而来。 领先代工厂传来量产消息。

另一类是国内外初创企业,如智存科技、厚墨智能、千芯科技、一竹科技、九天瑞芯、平芯科技等。

由于积累不同、优势不同、目标场景不同,各公司的存储计算一体化解决方案也有所不同,主要体现在三大差异:技术路径、存储介质、采用模拟技术还是数字技术。

区别一:技术路径

根据存储单元和计算单元的集成程度,可以分为近存计算和内存计算两类:

近存计算本质上是一种存储计算分离架构,但计算模块通常放置在存储阵列(单元阵列)附近,数据更靠近计算单元,从而减少数据移动的延迟和功耗。

近存计算的典型代表包括AMD Zen系列CPU、特斯拉Dojo、阿里巴巴达摩院采用混合键合3D堆叠技术实现的存储与计算一体化芯片等,以及国外初创公司和芯片大师Jim加入的初创公司等。他们目前推出的存储计算一体化芯片都属于近存计算范畴。

内存计算,存储单元和计算单元完全集成,没有独立的计算单元:算法直接嵌入到内存颗粒上,计算操作由内存芯片内部的存储单元完成。

从狭义上讲,这才是真正的存储与计算的融合,或者说,基于设备层面的存储与计算的融合,真正打破了存储与计算架构分离的壁垒。

一般来说,近内存计算是巨头的首选,因为它满足“实用、快速实现”的期望。 然而,初创企业没有路径依赖和历史包袱。 相反,他们可以另辟蹊径,直接选择内存计算,以达到更高的性能和更高的性能。 更通用的算力场景有待突破。

区别二:存储介质

存储和计算所依赖的存储介质多种多样,比如以SRAM、DRAM为代表的易失性存储器,以及以Flash为代表的非易失性存储器。 综合起来,不同的存储介质有各自的优点和缺点。

比较成熟的有NOR Flash、DRAM、SRAM等。

NOR FLASH是一种非易失性存储介质,具有成本低、可靠性高的优点,但工艺上存在瓶颈; DRAM成本低、容量大,但速度慢,需要不断功率刷新; SRAM在速度上有优势,但容量密度小,价格高。 在大型阵列中操作时确保操作精度具有挑战性。

目前,大多数厂商目前都倾向于技术成熟的SRAM来设计存储和计算一体化芯片,但也有一些厂商会采用“多马车”的发展路线来布局自己的未来。

区别三:数字还是模拟?

根据电路技术路径分类,集成存储计算可分为数字存储计算和模拟存储计算。 两者也各有优缺点:

数字存储和计算更适合大规模高精度芯片的实现。 它具有更好的计算灵活性,更适合通用场景,但它要求存储单元的内容必须以数字信号的形式呈现。

模拟存储和计算可以在计算精度相对固定且较低的情况下实现更高的能效,并且可以用任何存储单元来实现。

但其关键模拟模块(如A/D转换器)的转换精度要求相对固定,且由于不同的模拟计算方法可能存在不同的计算误差,因此该技术路径的可扩展性稍显不足。

近年来,学术界在存储与计算融合的各个方面进行了大量的探索,提出了很多存储与计算融合的加速器架构。 中科院微电子研究所、清华大学、斯坦福大学等机构已准备好存储计算一体化芯片原型机。

国内也涌现了一批存储计算一体化初创企业,包括智存科技、厚墨智能、一竹科技、平芯科技等,他们开发了基于SRAM、闪存、RRAM等存储器的存储计算一体化芯片,并且产品已经上市。

存储与计算集成芯片面临多重挑战

尽管集成存储和计算芯片被认为是下一代芯片,但它们仍处于起步阶段。 由于其成熟度,其应用范围还不够广泛,并且面临许多挑战,例如:

就芯片设计而言,架构设计的难度和复杂度非常高。 同时,市场还缺乏快速部署成熟的存储和计算集成软件编译器、辅助设计和仿真验证的专用EDA工具。

在芯片测试方面,流片后也缺乏成熟的工具来辅助测试。

在生态方面,缺乏相应配套的软件生态。

现阶段各厂商开发的存储计算一体化芯片都是基于自定义编程接口。 缺乏统一的编程接口,导致存储计算一体化软件生态系统碎片化。 不同厂商开发的上层软件不能互相使用,极大地影响了存储和计算的融合。 考虑大规模使用集成芯片。

总体而言,现阶段存储计算一体化的研发大多基于分散的技术研究,缺乏对大算力的整体布局,缺乏领先的应用需求牵引,距离大型化还有一定的距离。规模进入市场。

然而,大型模型的到来将极大地推动存储与计算一体化技术的落地,其未来的应用潜力和部署规模令人兴奋。

对于大规模模型部署,从业者需要系统布局存储与计算的融合,从算法、框架、编译器、工具链、指令集、架构、电路等进行跨层级协同设计,形成全栈系统、工具链和生态系统。 链。

从长远来看,设计方法、测试、量产、软件、场景选择等方面的全方位竞争将是各大厂商存储计算一体化芯片研发和落地的关键。

本文来自微信公众号,作者:科技云报道,36氪授权发布。