新物网

当前位置:首页 > 科技

科技

对于直流运营商来说,英伟达的布莱克威尔效率收益意味着什么

时间:2024-03-28 15:08:50 lion
分析 在上周的GTC发布了1,200瓦的布莱克威尔GPS之前,

分析 在上周的GTC发布了1,200瓦的布莱克威尔GPS之前,热火朝天的CPU和GPS已经让数据中心运营商感到头疼。

过去一年,数据中心运营商和共用服务提供商 扩大支持 对于高密度部署,通过后门换热器(RDHX)和在某些情况下直接到芯片(DTC)液体冷却,预期芯片温度上升。

看一下英维迪亚的 布莱克韦尔阵容 ,这些修改似乎是有理由的。每架大约60千瓦--每个节点14.3千瓦--已经有四个DGXB200系统堆了。 推动的 数字房地产设施中标准风冷架的限制。

那甚至不是英伟达最强大的系统。它最新的GB200Nvl72型系统 看着 详细地说,上周的评级为120千瓦,而且--并不出人意料--绝对需要液体冷却。

这对机架上的灯芯来说是很大的热量,但故事的内容却更多。让我们来看看布莱克韦尔的动力和效率的提高。

每瓦性能

在布莱克韦尔的发布期间,英伟达大胆地声称其芯片的性能和效率。我们稍后会讨论这些问题,但现在让我们看看这些芯片是如何按每瓦未加工浮点操作来堆叠的。

全球特别行动区f/w B100 (SXM) B200 (SXM) GB200 (GPU only) H100 (SXM) A100 (SXM) TDP 700W 1,000W 2,400W 700W 400W TF32 2.6 TFLOPS/W 2.2 TFLOPS/W 2.08 TFLOPS/W 1.41 TFLOPS/W 0.78 TFLOPS/W FP16 5 TLOPS/W 4.5 TFLOPS/W 4.16 TFLOPS/W 2.82 TFLOPS/W 1.56 TFLOPS/W FP8/INT8 10T(FL)OPS/W 9 T(FL)OPS/W 8.33 T(FL)OPS/W 5.65 T(FL)OPS/W 3.12 TOPS/W FP4 20TFLOPS/W 18 TFLOPS/W 16.66 TFLOPS/W 无 无

注意:在这个阵容中,我们没有包括fp64的性能,因为布莱克威尔实际上在双重精确工作量中的表现比霍普尔差。

仅从GPU效率来看,布莱克韦尔表现出了强劲的收益,比霍普高1.7x,比正常化为pp16的安培高3.2x。显然,如果你的工作量可以利用较低的精确度,那么你可以期待看到更大的收益,但结论基本相同。

但是当我们比较布莱克韦尔GPU的sku时,我们开始看到性能回报的递减超过了700W的标准。虽然看起来我们只是用1,000瓦的b200和gb200的双200瓦加速器来交换电力。

与H100不同的是,布莱克威尔的零部件还没有单独的PCI卡。

这意味着您将把它们作为hgx、dgx或超芯片衍生配置的一部分来购买。这意味着最小的配置将是两个GPS与GB200或八个与HGXB100或B200基系统。

系统专用/西 HGX B100* DGX200 Gb200Nvl72 DGXH100 DGXA100 TDP 10.2kW 14.3kW 120kW 10.2kW 6.5kW TF32 1.41 TFLOPS/W 1.23 TFLOPS/W 1.5 TFLOPS/W 0.77 TFLOPS/W 0.38 TFLOPS/W FP16 2.74 TFLOPS/W 2.51 TFLOPS/W 3 TFLOPS/W 1.55 TFLOPS/W 0.76 TFLOPS/W FP8/INT8 5.49 T(FL)OPS/W 5.03 T(FL)OPS/W 6 T(FL)OPS/W 3.10 T(FL)OPS/W 1.53 T(FL)OPS/W FP4 10.98 TFLOPS/W 10.06TFLOPS/W 12 TFLOPS/W 无 无

注:由于没有DGXB100配置,我们的"HGXB100"数字是以DGXH100的最大功率提取为基础的,因为这是一个可供选择的替换,设计的目的是在相同的热和功率约束下工作。

与霍普相比,布莱克韦尔的dgxb200平台效率更高,但随着空气冷却,回报率进一步下降。

通过观察充满CPU、内存、网络和存储器的风冷系统的效率,我们发现,即使拥有更大的10U底盘来容纳更大的堆栈,dgxb200似乎也不如hgxb100高效。 

怎么了?正如你可能已经怀疑的那样,1000W比700W更难冷却,特别是因为风扇必须更快地旋转,以推动更多的空气通过热池。

在机架水平,NVIDIA的液体冷却NVL72实际上是最有效的束。

当我们加入恩维迪亚的能量饥饿GB200NVL72和它的120千瓦的胃口时,我们可以更好地看待这个问题。 

在机架尺度,我们比较了四个DGX风格系统每个机架与单一的GB200NVL72设置。我们又看到了一个熟悉的趋势。尽管水冷系统的GPS运行比DGXB200热200W,但Rak规模系统能够发挥2.5倍的性能,同时耗电略超过两倍。

从图表中,你还可以看到,液体冷却的NVL系统实际上是最高效的,毫无疑问,因为它没有将15%-20%的能量投入风扇。

此外,您还需要为设施设备提供动力,如冷却剂分配单元(CDU),这些数字没有考虑到,但空气处理程序也不需要冷却传统系统。

在这里,我们可以从数据中心操作员的实际角度出发,就布莱克威尔的意义得出一些结论。

恩维迪亚的HGX仍然是一个安全的赌注传统上,NVLLT开关已经集成到了NVIA的SXM载波板上,比如布莱克韦尔HGX板。

英伟达最新的布莱克韦尔HGX载波板在GTC24展示。-点击放大

恩维迪亚的布莱克威尔发电公司最大的吸引力之一是电力和热能。你给这些芯片的能量越大,你就能把它们保存得越冷,它们的表现越好--达到某一程度。

如果你的设备正处于能够支持nviya的dgxh100的边缘,那么b100应该不会更难管理,至少根据我们的估计,在风冷系统中,它看起来是更有效的选择。

虽然dgxb200在满负荷时可能没有那么有效,但它仍然比b100盒快28%。在现实世界中,芯片很少24/7直奔红线,两者可能比他们在纸上看到的更接近。

无论在哪种情况下,你仍然可以看到比料斗的计算密度有很大的提高。四个DGXB200盒能够替换9-18H100系统,这取决于你是否可以利用布莱克威尔的p4精度。

越来越少、越来越密集的衣架指向了液体冷却的未来

数据中心运营商可能面临的更大挑战之一是机架功率密度更高。有四个箱子在一个架子,我们看到大约50%的电力和冷却需求比H100系统。

如果你的数据中心不能支持这些密集的配置,那么你可能被迫选择两个节点架,有效地消除了布莱克威尔可能为你节省的空间。如果你的模型没有变得更大,或者你可以适应更长的训练时间,并利用布莱克韦尔宽敞的192gbm3e,这可能不是什么大事,但是如果你的模型已经增长,或者你的训练或精细的调谐时间表已经萎缩,这可能会证明有点头疼。

gb200nvl72是一个小型系统,它使用nv链接开关设备将36个格雷斯-布莱克韦尔超级芯片缝在一起,形成一个单一的系统。

gb200nvl72是一个小型系统,它使用nv链接开关设备将36个格雷斯-布莱克韦尔超级芯片缝在一起,形成一个单一的系统。-点击放大

对于gb200nvl72的范围来说情况略有不同。超过22个HGXH100系统可以浓缩成这些液体冷却系统中的一个。或者用另一种方式,在支持一个模型所需的空间中,你现在可以支持一个5.5倍大的。

尽管如此,如果你想把布莱克威尔的潜能全部发挥出来,那么这样做将需要液体冷却。

好消息是,我们所看到的很多比特谷仓宣布支持nvi并不的DGXH100系统,包括电磁和数字房地产,已经在使用一种液体冷却形式--通常是使用后门热交换器--但DTC正在变得越来越普遍。

其中一些后门配置声称支持100千瓦或更多千瓦的热排斥,所以理论上你可以将其中一个系到Nvl72,并将热量倾倒到热通道。你的设施空气处理工是否能完全应付这是另一回事。

因此,我们怀疑液体到液体的CDU将会成为这样密集的冷却机架的首选方法。

NIM上的NIM软件执行官卡里布里斯基,CUD和DOGFOO丁AI 随着人工智能的繁荣,核电站附近的土地变成了热门的房地产 不管是不是泡沫,英伟达都把一切都押在了加速全球化的未来上 一个架子。120千瓦。仔细看看恩维迪亚的dgxGb200nvl72野兽 不仅仅是失败

在黄延森的主旨演讲中,他对布莱克韦尔的推理性能做了更大胆的断言,他说,在引用1.8万亿参数混合专家模型时,它比霍珀一代的推理速度快30倍。

NVIDIA说它的NVL72在推理工作负载中的性能最高可达30倍,而它的工作负载与类似的H100安装相比。

NVIDIA说,它的NVL72在推理工作负载中的性能最高可达30倍,在类似的H100安装程序旁边--点击扩大

从细节上看,我们看到有许多因素对这些收益起了作用。在未完成的成绩方面,与在fp8上运行的h100相比,下降到pp4网的布莱克韦尔表现最出色。

布莱克韦尔还自夸拥有1.4倍更多的hbm,正好提供了1.38x更多的内存带宽,每gpp记录到8tb/s,相比之下,h100的3.35tb/s。

然而,额外的故障和内存带宽本身并不足以解释推理性能的30倍提升。这里的脚注提供了一些线索。

结果:基于对指延迟时间=50mm;实时的第一标记延迟时间=5000mm;输入序列长度=32768;输出序列长度=1024输出,8xHGXH100风冷8x8gx网络与18gb200超级芯片液化冷却:NVL36,每GPU性能比较。预期业绩可能会改变。

在霍普配置中,每个服务器都有八个H100S,可以通过一个快速的900GB/SNvL链接交换织物相互交谈。然而,一个1.8万亿的参数模型不适合一个服务器。在fp8中,这样的模型将需要至少1.8Tb的内存,再加上键值缓存的一些额外容量。因此,我们需要更多的盒子,这些盒子必须通过400GB/s的无限波段网络相互通信。这意味着,每个GPU的总带宽为100GB/秒,这与NV链接相比是一个相当大的瓶颈。

相比之下,在NVIDIA的NVL系统中,每个GPU以1.8Tb/s的速度相互连接。更重要的是,较低精度的fp4数学将所需内存从1.8tb削减到900gb,同时也降低了带宽需求,这在理论上应该会提高吞吐量。

虽然NVIDA的NVL系统在运行大规模的万亿以上参数模型时可能有优势,但似乎布莱克威尔的估计铅比跳率要小得多,因为这些模型可以装在一个盒子里。

对于可复制的恩维迪亚的推理结果最终将会是怎样,还有待观察,但是销售的建议是明确的。一个NVL机架可以替代比系统的浮点性能更多的H100节点,这可能会让你相信--当然,如果你碰巧是在规模上的参考万亿加参数模型。无障碍的