304永利集团官网入口-英伟达最强B200算力浪费60%
首页财产芯片半导体正文 英伟达最强B200算力华侈60% 普林斯顿年夜学等结合团队指出英伟达Blackwell B200因软硬件适配问题华侈60%计较资源,FlashAttention-4将使用率提至71%,还有带来编译速率晋升。 2026-03-18 10:36 ·量子位存眷前沿科技 AI投资人解读· 英伟达Blackwell B200因软硬件适配问题华侈60%计较资源,FlashAttention-4算法将使用率从20%-30%晋升至71%,编译速率最高狂飙30倍,于B200 GPU上实现71%理论峰值使用率,比主流框架快。 · 行业竞争激烈,技能更新快,若不克不及连续优化,可能被逾越。 总结:FlashAttention-4算法上风较着,晋升了GPU使用率与编译速率,但面对行业竞争技能更新危害,仍具投资潜力,需存眷技能迭代与竞争态势。内容由AI天生,仅供参考
所有效英伟达Blackwell B200的人,都于花冤枉钱??
普林斯顿年夜学等结合团队指出,这款GPU竟然由于软硬件适配问题白白华侈了60%的计较资源。

算力华侈了,咋办呢——FlashAttention-4给出了谜底。
这款专为Blackwell架构GPU量身打造的留意力算法,一举将使用率从行业遍及的20%-30%推至71%。
FlashAttention-4由Tri Dao领衔、联袂Meta、Together AI等团队配合研发。
嗯,英伟达本身也介入此中了……

Blackwell B200有力使不出
英伟达Blackwell B200作为新一代数据中央GPU,其tensor core张量焦点算力到达2.25 PFLOPS,是上一代Hopper H100的2倍。
理论上能让留意力计较的速率实现超过式晋升。
但抱负很饱满……
这款GPU发生了严峻的偏科。
焦点算力猛增的同时,要害的配套计较单位却原地踏步。
此中,卖力指数运算的MUFU单位吞吐量与Hopper架构彻底一致,没有任何晋升;
同享内存的带宽也连结原样,并未追随张量焦点同步进级。
这一硬件设计的不合错误称性,直接致使了机能瓶颈的反转。
于年夜模子焦点的留意力计较负载中,原有的机能瓶颈矩阵乘法,如今耗时远低在辅助环节,同享内存的读写操作及指数运算的耗时,反而比矩阵乘法多出25%-60%。
算力翻倍的Tensor Core持久处在等候状况,年夜量计较资源就这么被闲置了。
在是,年夜量开发者破费重金部署的B200 GPU,因焦点算力与配套单位的脱节,超六成资源被白白华侈。
算力翻倍?
No!明明是有力使不出……
FlashAttention-4三招破解瓶颈
针对于Blackwell GPU的偏科问题,FlashAttention-4量身打造了三年夜优化计谋。

*招,多管齐下化解指数运算与内存读写难题。
团队一方面经由过程软件模仿指数函数,借助多项式类似的要领,让高速的FMA计较单位介入到原本由MUFU单位卖力的指数运算中,年夜幅晋升指数计较的吞吐量;
同时经由过程混淆硬件计较与软件模仿的方式,于提速的同时包管计较精度。

另外一方面推出前提性softmax rescaling计谋,仅于须要时履行softmax的缩放操作,直接跳过年夜量无用的计较步调,削减非矩阵乘法的运算量。
此外,团队充实使用Blackwell架构的2-CTA MMA模式,让两个计较单位搭档完成矩阵运算,各自仅加载一半的运算数据。
这就将同享内存的读写量直接砍半,同时还有削减了后续的原子操作,从泉源上减缓同享内存的带宽压力。

第二招,重构计较流水线,实现算力的并行*化。
FlashAttention-4深度适配Blackwell架构的全异步MMA操作及新增的张量内存TMEM,从头设计了留意力计较的前向及反向流水线。
让softmax计较与矩阵乘法这两个焦点环节实现彻底的计较堆叠。

当硬件的张量焦点于处置惩罚一个矩阵块时,另外一部门硬件资源可同时对于另外一个数据块履行softmax计较,防止硬件算力的余暇。
第三招,统筹硬件迭代,为下一代GPU预留优化空间。
研发团队同时思量到Blackwell架构的硬件进级趋向,今朝B300/GB300 GPU的指数运算单位吞吐量已经翻倍至32 ops/clock/SM。
针对于这一变化,团队明确暗示,FlashAttention-4当前的软件模仿指数运算方案,于下一代硬件上会按照现实机能体现从头衡量,确保算法能连续适配硬件的迭代进级。
离别 C++,编译速率狂飙30倍
除了了算法层的深度优化,FlashAttention-4于开发层面也带来了变化。
与此前基在C++模板开发的FlashAttention-3差别,FlashAttention-4的全数代码基在Python的范畴专用版本CuTe-DSL框架编写,实现了零C++代码开发。
这一设计带来的是编译的效率跃升。
前向流传内核的编译时间从FlashAttention-3的55秒缩短至2.5秒,提速22倍;
反向流传的编译时间从45秒降至1.4秒,提速32倍,总体编译速率最高狂飙30倍。

于B200 GPU上的实测数据显示,其前向流传算力最高到达1613 TFLOPS/s,一举实现71%的理论峰值使用率。
对于比主流的计较框架,FlashAttention-4的上风也比力较着。
比英伟达官方的cuDNN 9.13快1.1-1.3倍,比经常使用的Triton框架快2.1-2.7 倍。

且于长序列、因果掩码等年夜模子练习推理的焦点场景中,机能上风更为凸起。
One More Thing
论文还有指出,cuDNN从9.13版本最先就已经经最先反向接收了FA4的焦点技能。

看来,英伟达本身也不由得抄功课了。
【本文由投资界互助伙伴量子位授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-304永利集团官网入口




