观点 @vllm_project 2026-04-27

vLLM：FP8 KV cache 把 128k 大海捞针准确率从 13% 拉到 89%

AWS 与 Red Hat 在 vLLM 中实现 FP8 KV cache + 注意力优化：FA3 中引入两级累加，把 128k 大海捞针准确率从 13% 提升到 89%，同时保留 FP8 解码加速。

AI 资讯解读

核心要点

vLLM 团队与 AWS、Red Hat 合作，通过在 Flash Attention 3 中引入两级累加（two-level accumulation）技术，成功解决了 FP8 KV cache 的精度损失问题，将 128k 上下文大海捞针测试准确率从 13% 飙升至 89%，同时保留了 FP8 带来的解码加速优势。这意味着长上下文推理可以在不牺牲准确率的情况下享受低精度计算的性能红利。

深度解读

这项突破直击当前 LLM 推理的两个核心矛盾：速度 vs 精度、短上下文 vs 长上下文。

FP8 量化本是推理优化的重要手段——通过降低权重和激活值的表示精度，可显著减少显存占用和计算量。但 KV cache 存储的是注意力机制的中间结果，对精度极为敏感。以往强行使用 FP8 KV cache 会导致模型在长序列中"遗忘"关键信息，大海捞针准确率暴跌至 13% 就是明证。

两级累加的巧妙之处在于：它在 FP8 计算过程中引入了中间层的更高精度累加，避免了逐层精度误差的累积传播。这类似于在积分计算中使用更高精度的中间步骤，最终结果既享受了 FP8 的速度，又保留了足够的信息完整性。

从行业影响看，这一进展对Agent 系统、多轮对话、长文档分析等场景意义重大。128k 上下文能力此前因精度问题难以真正实用，如今成为可落地的工程选项。配合 vLLM 本身的高吞吐量特性，FP8 + 长上下文的组合可能成为下一代推理服务的事实标准。

值得关注

开源进度与 API 兼容性：两级累加会以怎样的 API 暴露给用户？是自动启用还是需要显式配置？与现有 vLLM 量化方案（如 AWQ、SmoothQuant）如何共存？
硬件适配范围：该优化是否依赖特定 GPU 架构（如 Hopper 的 FP8 原生支持）？对 AMD Instinct 或其他硬件的向后兼容情况值得关注。
更大上下文与更多任务的表现：128k 是起点，256k、512k 甚至更长的场景下准确率如何？在实际 NLP 任务（非纯大海捞针）上的提升幅度是否同样显著？

本解读由 AI 自动生成，仅供参考。请以原文为准。