研究 @lmsysorg 2026-04-10

LMSys 发布 HiSparse：分层内存加速稀疏注意力，吞吐量提升 3-5 倍

HiSparse 通过将不活跃 KV Cache 主动卸载到主机内存解决容量瓶颈，在 8xH200 上 256 并发请求下实现 3 倍吞吐提升，长上下文场景可达 5 倍。

AI 资讯解读

核心要点

2026年4月10日，LMSys在其官方账号发布HiSparse技术，这是一种专为稀疏注意力机制设计的分层内存调度方案。HiSparse的核心创新在于将长序列推理中不活跃的KV Cache主动卸载（offload）至主机端DRAM，从而突破GPU HBM的容量瓶颈。在配备8块H200 GPU的测试环境中，面对256路并发请求，HiSparse实现3倍吞吐量提升；在超长上下文（推测为128K+ tokens）场景下，提升幅度可达5倍。这一成果直指当前大模型推理成本高、长上下文处理困难的行业痛点。

原文 + 中文翻译

原文：

"HiSparse: Hierarchical Memory for Sparse Attention — we offload inactive KV cache to host memory to address capacity bottleneck. On 8xH200 with 256 concurrent requests, we achieve 3x throughput improvement, up to 5x for long-context scenarios."

翻译：

HiSparse：用于稀疏注意力的分层内存方案——我们将不活跃的KV Cache卸载至主机内存，以解决容量瓶颈问题。在8×H200配置、256并发请求下，实现3倍吞吐量提升，长上下文场景下最高可达5倍。

深度解读

一、技术动机：HBM容量墙与稀疏注意力的天然矛盾

当前大模型推理的主要瓶颈已从计算转向内存。KV Cache（Key-Value缓存）用于存储注意力计算中的中间结果，其大小随序列长度线性增长。当上下文扩展至128K甚至1M tokens时，完整KV Cache可能超出单卡80GB HBM容量，导致频繁的显存换入换出（swapping），吞吐量骤降。HiSparse的思路直击这一矛盾：通过识别"不活跃"的KV Cache（指当前计算不涉及的token对应的缓存），将其迁移至成本更低、容量更大的主机端DDR5内存，仅保留热点token的缓存于GPU显存。这本质上是将操作系统虚拟内存的分层调度思想引入推理引擎，在延迟与容量间取得新平衡点。

二、性能收益的商业意义

LMSys披露的3-5倍吞吐量提升意味着什么？以GPT-4级别模型的推理成本为参照，若将HiSparse部署于生产环境，相同硬件配置下可服务3-5倍的用户请求，推理即服务（Inference-as-a-Service）的边际成本将大幅压缩。对于追求长上下文能力的产品（如文档分析、代码库问答、长视频理解），5倍的提升几乎等同于将长上下文推理从"不可行"变为"可商业部署"。考虑到H200的采购成本约每卡25-30万美元，3-5倍吞吐量提升相当于在不做硬件扩容的前提下，将基础设施投资回报率提升数倍，这对云厂商和大模型公司吸引力显著。

三、与FlashAttention、MQA等技术的演进关系

HiSparse并非孤立创新，它处于稀疏注意力技术栈的延伸线上。从FlashAttention（通过IO-aware计算提升效率）到MQA/GQA（减少KV头数量以节省显存），再到PagedAttention（解决KV Cache碎片化），业界已形成一条清晰的优化脉络。HiSparse的差异化在于将优化粒度从"计算层面"拓展至"内存层次"，通过软硬件协同设计（主机端内存+GPU协同）释放稀疏模式的潜力。这与近期Anthropic关于"Memory Chips"的探索、Meta的"Long Context"研究形成呼应，共同指向一个方向：大模型推理的下一阶段突破将从算法层面转向系统架构层面，内存层次化将成为新的竞争焦点。

值得关注

开源时间表：LMSys是否会同步开源HiSparse代码及预训练权重？参考其Chatbot Arena的运营风格，预计将优先发布技术论文和评估脚本，完整推理框架可能需要等待1-2个月。
硬件兼容性验证：测试基于8×H200，但H200的HBM3e带宽（4.8TB/s）与H100（HBM3，3.35TB/s）差异显著。HiSparse在H100集群或国产GPU（如华为昇腾910B）上的表现如何尚待验证，这直接关系到国内云厂商的采纳意愿。
与主流推理框架的集成进度：vLLM、TensorRT-LLM、TGI等框架是部署入口。HiSparse是否已与这些框架对接，或需要等待社区移植？这决定了技术能否快速落地而非停留在论文阶段。
稀疏模式与模型架构的耦合度：HiSparse对稀疏性的依赖程度决定其适用范围。若稀疏注意力已在目标模型（如Mistral、DeepSeek系列）中原生支持，集成成本低；若需要重新训练或微调，则采纳周期将显著拉长。
长上下文场景的延迟基准：吞吐量提升3-5倍的代价是额外的主机-设备数据传输，可能带来首token延迟（TTFT）上升。需关注LMSys是否披露P99延迟数据，这对于在线推理场景至关重要。

信源行：
原文链接：LMSys官方发布推文
背景报道：
· FlashAttention-2官方论文（arXiv） — 提供稀疏注意力IO复杂度分析的基准方法论
· vLLM官方文档 — 主流推理框架对PagedAttention和KV Cache管理的现有实现，可对比HiSparse的差异化

本解读由 AI 自动生成，仅供参考。请以原文为准。