← 返回资讯
观点 @vllm_project 2026-04-27

vLLM:FP8 KV cache 把 128k 大海捞针准确率从 13% 拉到 89%

AWS 与 Red Hat 在 vLLM 中实现 FP8 KV cache + 注意力优化:FA3 中引入两级累加,把 128k 大海捞针准确率从 13% 提升到 89%,同时保留 FP8 解码加速。

查看原文
AI 资讯解读

核心要点

vLLM 团队与 AWS、Red Hat 合作,通过在 Flash Attention 3 中引入两级累加(two-level accumulation)技术,成功解决了 FP8 KV cache 的精度损失问题,将 128k 上下文大海捞针测试准确率从 13% 飙升至 89%,同时保留了 FP8 带来的解码加速优势。这意味着长上下文推理可以在不牺牲准确率的情况下享受低精度计算的性能红利。

深度解读

这项突破直击当前 LLM 推理的两个核心矛盾:速度 vs 精度短上下文 vs 长上下文

FP8 量化本是推理优化的重要手段——通过降低权重和激活值的表示精度,可显著减少显存占用和计算量。但 KV cache 存储的是注意力机制的中间结果,对精度极为敏感。以往强行使用 FP8 KV cache 会导致模型在长序列中"遗忘"关键信息,大海捞针准确率暴跌至 13% 就是明证。

两级累加的巧妙之处在于:它在 FP8 计算过程中引入了中间层的更高精度累加,避免了逐层精度误差的累积传播。这类似于在积分计算中使用更高精度的中间步骤,最终结果既享受了 FP8 的速度,又保留了足够的信息完整性。

从行业影响看,这一进展对Agent 系统、多轮对话、长文档分析等场景意义重大。128k 上下文能力此前因精度问题难以真正实用,如今成为可落地的工程选项。配合 vLLM 本身的高吞吐量特性,FP8 + 长上下文的组合可能成为下一代推理服务的事实标准。

值得关注

本解读由 AI 自动生成,仅供参考。请以原文为准。