304永利集团官网入口-英伟达最强B200算力浪费60%

作者：304永利集团官网入口文化更新时间：2026-03-27 16:44:54 点击数：

首页财产芯片半导体正文英伟达最强B200算力华侈60% 普林斯顿年夜学等结合团队指出英伟达Blackwell B200因软硬件适配问题华侈60%计较资源，FlashAttention-4将使用率提至71%，还有带来编译速率晋升。 2026-03-18 10:36 ·量子位存眷前沿科技 AI投资人解读· 英伟达Blackwell B200因软硬件适配问题华侈60%计较资源，FlashAttention-4算法将使用率从20%-30%晋升至71%，编译速率最高狂飙30倍，于B200 GPU上实现71%理论峰值使用率，比主流框架快。 · 行业竞争激烈，技能更新快，若不克不及连续优化，可能被逾越。总结：FlashAttention-4算法上风较着，晋升了GPU使用率与编译速率，但面对行业竞争技能更新危害，仍具投资潜力，需存眷技能迭代与竞争态势。内容由AI天生，仅供参考

所有效英伟达Blackwell B200的人，都于花冤枉钱？？

普林斯顿年夜学等结合团队指出，这款GPU竟然由于软硬件适配问题白白华侈了60%的计较资源。

算力华侈了，咋办呢——FlashAttention-4给出了谜底。

这款专为Blackwell架构GPU量身打造的留意力算法，一举将使用率从行业遍及的20%-30%推至71%。

FlashAttention-4由Tri Dao领衔、联袂Meta、Together AI等团队配合研发。

嗯，英伟达本身也介入此中了……

Blackwell B200有力使不出

英伟达Blackwell B200作为新一代数据中央GPU，其tensor core张量焦点算力到达2.25 PFLOPS，是上一代Hopper H100的2倍。

理论上能让留意力计较的速率实现超过式晋升。

但抱负很饱满……

这款GPU发生了严峻的偏科。

焦点算力猛增的同时，要害的配套计较单位却原地踏步。

此中，卖力指数运算的MUFU单位吞吐量与Hopper架构彻底一致，没有任何晋升；

同享内存的带宽也连结原样，并未追随张量焦点同步进级。

这一硬件设计的不合错误称性，直接致使了机能瓶颈的反转。

于年夜模子焦点的留意力计较负载中，原有的机能瓶颈矩阵乘法，如今耗时远低在辅助环节，同享内存的读写操作及指数运算的耗时，反而比矩阵乘法多出25%-60%。

算力翻倍的Tensor Core持久处在等候状况，年夜量计较资源就这么被闲置了。

在是，年夜量开发者破费重金部署的B200 GPU，因焦点算力与配套单位的脱节，超六成资源被白白华侈。

算力翻倍？

No！明明是有力使不出……

FlashAttention-4三招破解瓶颈

针对于Blackwell GPU的偏科问题，FlashAttention-4量身打造了三年夜优化计谋。

*招，多管齐下化解指数运算与内存读写难题。

团队一方面经由过程软件模仿指数函数，借助多项式类似的要领，让高速的FMA计较单位介入到原本由MUFU单位卖力的指数运算中，年夜幅晋升指数计较的吞吐量；

同时经由过程混淆硬件计较与软件模仿的方式，于提速的同时包管计较精度。

另外一方面推出前提性softmax rescaling计谋，仅于须要时履行softmax的缩放操作，直接跳过年夜量无用的计较步调，削减非矩阵乘法的运算量。

此外，团队充实使用Blackwell架构的2-CTA MMA模式，让两个计较单位搭档完成矩阵运算，各自仅加载一半的运算数据。

这就将同享内存的读写量直接砍半，同时还有削减了后续的原子操作，从泉源上减缓同享内存的带宽压力。

第二招，重构计较流水线，实现算力的并行*化。

FlashAttention-4深度适配Blackwell架构的全异步MMA操作及新增的张量内存TMEM，从头设计了留意力计较的前向及反向流水线。

让softmax计较与矩阵乘法这两个焦点环节实现彻底的计较堆叠。

当硬件的张量焦点于处置惩罚一个矩阵块时，另外一部门硬件资源可同时对于另外一个数据块履行softmax计较，防止硬件算力的余暇。

第三招，统筹硬件迭代，为下一代GPU预留优化空间。

研发团队同时思量到Blackwell架构的硬件进级趋向，今朝B300/GB300 GPU的指数运算单位吞吐量已经翻倍至32 ops/clock/SM。

针对于这一变化，团队明确暗示，FlashAttention-4当前的软件模仿指数运算方案，于下一代硬件上会按照现实机能体现从头衡量，确保算法能连续适配硬件的迭代进级。

离别 C++，编译速率狂飙30倍

除了了算法层的深度优化，FlashAttention-4于开发层面也带来了变化。

与此前基在C++模板开发的FlashAttention-3差别，FlashAttention-4的全数代码基在Python的范畴专用版本CuTe-DSL框架编写，实现了零C++代码开发。

这一设计带来的是编译的效率跃升。

前向流传内核的编译时间从FlashAttention-3的55秒缩短至2.5秒，提速22倍；

反向流传的编译时间从45秒降至1.4秒，提速32倍，总体编译速率最高狂飙30倍。

于B200 GPU上的实测数据显示，其前向流传算力最高到达1613 TFLOPS/s，一举实现71%的理论峰值使用率。

对于比主流的计较框架，FlashAttention-4的上风也比力较着。

比英伟达官方的cuDNN 9.13快1.1-1.3倍，比经常使用的Triton框架快2.1-2.7 倍。

且于长序列、因果掩码等年夜模子练习推理的焦点场景中，机能上风更为凸起。

One More Thing

论文还有指出，cuDNN从9.13版本最先就已经经最先反向接收了FA4的焦点技能。

看来，英伟达本身也不由得抄功课了。

【本文由投资界互助伙伴量子位授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-304永利集团官网入口

加入收藏

Tag： 304永利集团官网入口

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

304永利集团官网入口-英伟达最强B200算力浪费60%

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天