vLLM:AMD GPU 注意力后端优化,解码吞吐量提升 4.4 倍
AMD 与 EmbeddedLLM 为 vLLM 在 ROCm 平台构建了 7 个注意力后端,通过 KV 缓存布局重排和跨块 log-sum-exp 合并,ROCM_AITER_FA 在 AMD GPU 上实现 4.4 倍解码吞吐量提升。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
AMD 与 EmbeddedLLM 为 vLLM 在 ROCm 平台构建了 7 个注意力后端,通过 KV 缓存布局重排和跨块 log-sum-exp 合并,ROCM_AITER_FA 在 AMD GPU 上实现 4.4 倍解码吞吐量提升。
查看原文