芯片 @vllm_project 2026-02-28

vLLM：AMD GPU 注意力后端优化，解码吞吐量提升 4.4 倍

AMD 与 EmbeddedLLM 为 vLLM 在 ROCm 平台构建了 7 个注意力后端，通过 KV 缓存布局重排和跨块 log-sum-exp 合并，ROCM_AITER_FA 在 AMD GPU 上实现 4.4 倍解码吞吐量提升。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。