清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。此前，清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中，比如 Vidu，CogvideoX，Mochi，Wan，HunyuanVideo，Flux，Llama3，Qwen 等。近日，清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子（SageAttention3）。

近日，清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子（SageAttention3）。实现了 5 倍相比于 FlashAttention 的即插即用的推理加速（此前的 SageAttention V1/V2/V2++ 分别达到了 2.1，3，3.9 倍的加速效果），比如在 RTX 5090 上，SageAttention3 达到了 1040 TOPS 的速度，甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍！SageAttention3 在多种视频和图像生成等大模型上（包括 HunyuanVideo，CogVideoX，Mochi 和各类图像生成模型）均保持了端到端的精度表现。同时还首次提出可训练的 8 比特注意力（SageBwd）用于大模型的训练加速（注：FlashAttention3 的 FP8 版本也只支持前向传播），在各项微调任务中均保持了与全精度注意力相同的结果。

论文标题：SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-bit Training
论文链接：https://arxiv.org/abs/2505.11594
开源代码：https://github.com/thu-ml/SageAttention

效果预览

SageAttention3 实现了高效的 Attention 算子，可以实现即插即用的 5 倍于 FlashAttention 的推理加速。即输入任意 Q, K, V 矩阵，可以快速返回 Attention Output (O)，真正做到了两行代码加速任意模型推理。（注：按照官方仓库中的开源计划，SageAttention2++ 的代码将于6月20日左右开源，SageAttention3 的代码将于7月15日左右开源。）

效果上，以 HunyuanVideo 为例，在 RTX5090 上 SageAttention3 可以 3 倍加速端到端的生成，且视频质量几乎无损：

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

视频 1（使用 FlashAttention2，490s）

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

视频 2（使用 SageAttention3,164s）

（注：FlashAttention2 已经是在 RTX5090 上最优的 FlashAttention 实现。）

接下来，将从前言，挑战，方法，以及实验效果四个方面介绍 SageAttention3。

SageAttention3 总体流程图

前言

随着大模型需要处理的序列长度越来越长，Attention 的速度优化变得越来越重要。下图展示了一个标准的 Transformer 模型中各运算的时间占比随序列长度的变化：

为了方便指代注意力运算中的矩阵，我们先回顾一下注意力的计算公式：

研究动机：（1）Blackwell 架构有着速度极快的 FP4 Tensor Core，以 RTX5090 为例，其速度是 FP16 Tensor Core 的 8 倍。（2）训练阶段的注意力运算开销也同样重要，在此之前并没有工作尝试过低比特注意力加速模型训练，包括 FlashAttention3 的 FP8 版本也只有 Forward 过程。我们还希望同时量化注意力的前向 + 反向过程来加速训练。

FP4 注意力量化有什么问题？

（1）FP4 数值类型仅有 15 个有效数值，这使得以 Tensor（Per-tensor）或以 Token（Per-token）粒度的量化都难以有效保证量化的准确度。

（2）P 矩阵的值分布在 [0, 1] 之间，直接的 FP4 量化会使量化缩放因子被限制在一个狭窄的范围内。然而，硬件要求这些量化因子必须采用 FP8 数据类型表示。此时，将缩放因子转为 FP8 时会导致显著的精度损失。

8-Bit 注意力用于训练有什么问题？

（1）P 矩阵的梯度对量化误差过于敏感，并且在反向过程中还会沿着序列长度对 Q 和 K 的梯度造成误差累积。

技术方案

为了解决上述的挑战，研究团队提出了对应的解决办法。

（1）为了提高 FP4 的量化精度。研究团队采用了 Microscaling FP4 量化，这是 BlackWell 硬件层面支持的一种量化方式。即可以采用或的量化粒度进行矩阵量化，NIVIDA 在硬件层面自动支持了反量化过程。此外，Microscaling FP4 有两种数据表示的形式，一种是 MXFP4, 另外一种是 NVFP4。两种格式都采用了 E2M1 的 FP4 数据类型。不同的是，NVFP4 的量化的块大小为，缩放因子的数据类型为 E4M3。MXFP4 的量化的块大小为，缩放因子的数据格式为 E8M0。研究团队采用了 NVFP4 数据格式，因为其量化准确率远高于 MXFP4：

（2）针对 P 的缩放因子范围狭窄的问题，研究团队提出了两阶段量化（Two-level Quantization）的办法。FlashAttention 中的 P 矩阵的值在 [0, 1] 的范围内，导致 P 的缩放因子的范围也只在 0~0.167 之间。把缩放因子直接转换为 FP8 格式会带来极大的精度损失。