← 返回资讯
研究 @lmsysorg 2026-04-10

LMSys 发布 HiSparse:分层内存加速稀疏注意力,吞吐量提升 3-5 倍

HiSparse 通过将不活跃 KV Cache 主动卸载到主机内存解决容量瓶颈,在 8xH200 上 256 并发请求下实现 3 倍吞吐提升,长上下文场景可达 5 倍。

查看原文
AI 资讯解读

核心要点

2026年4月10日,LMSys在其官方账号发布HiSparse技术,这是一种专为稀疏注意力机制设计的分层内存调度方案。HiSparse的核心创新在于将长序列推理中不活跃的KV Cache主动卸载(offload)至主机端DRAM,从而突破GPU HBM的容量瓶颈。在配备8块H200 GPU的测试环境中,面对256路并发请求,HiSparse实现3倍吞吐量提升;在超长上下文(推测为128K+ tokens)场景下,提升幅度可达5倍。这一成果直指当前大模型推理成本高、长上下文处理困难的行业痛点。

原文 + 中文翻译

原文:
"HiSparse: Hierarchical Memory for Sparse Attention — we offload inactive KV cache to host memory to address capacity bottleneck. On 8xH200 with 256 concurrent requests, we achieve 3x throughput improvement, up to 5x for long-context scenarios."
翻译:
HiSparse:用于稀疏注意力的分层内存方案——我们将不活跃的KV Cache卸载至主机内存,以解决容量瓶颈问题。在8×H200配置、256并发请求下,实现3倍吞吐量提升,长上下文场景下最高可达5倍。

深度解读

一、技术动机:HBM容量墙与稀疏注意力的天然矛盾

当前大模型推理的主要瓶颈已从计算转向内存。KV Cache(Key-Value缓存)用于存储注意力计算中的中间结果,其大小随序列长度线性增长。当上下文扩展至128K甚至1M tokens时,完整KV Cache可能超出单卡80GB HBM容量,导致频繁的显存换入换出(swapping),吞吐量骤降。HiSparse的思路直击这一矛盾:通过识别"不活跃"的KV Cache(指当前计算不涉及的token对应的缓存),将其迁移至成本更低、容量更大的主机端DDR5内存,仅保留热点token的缓存于GPU显存。这本质上是将操作系统虚拟内存的分层调度思想引入推理引擎,在延迟与容量间取得新平衡点。

二、性能收益的商业意义

LMSys披露的3-5倍吞吐量提升意味着什么?以GPT-4级别模型的推理成本为参照,若将HiSparse部署于生产环境,相同硬件配置下可服务3-5倍的用户请求,推理即服务(Inference-as-a-Service)的边际成本将大幅压缩。对于追求长上下文能力的产品(如文档分析、代码库问答、长视频理解),5倍的提升几乎等同于将长上下文推理从"不可行"变为"可商业部署"。考虑到H200的采购成本约每卡25-30万美元,3-5倍吞吐量提升相当于在不做硬件扩容的前提下,将基础设施投资回报率提升数倍,这对云厂商和大模型公司吸引力显著。

三、与FlashAttention、MQA等技术的演进关系

HiSparse并非孤立创新,它处于稀疏注意力技术栈的延伸线上。从FlashAttention(通过IO-aware计算提升效率)到MQA/GQA(减少KV头数量以节省显存),再到PagedAttention(解决KV Cache碎片化),业界已形成一条清晰的优化脉络。HiSparse的差异化在于将优化粒度从"计算层面"拓展至"内存层次",通过软硬件协同设计(主机端内存+GPU协同)释放稀疏模式的潜力。这与近期Anthropic关于"Memory Chips"的探索、Meta的"Long Context"研究形成呼应,共同指向一个方向:大模型推理的下一阶段突破将从算法层面转向系统架构层面,内存层次化将成为新的竞争焦点。

值得关注

信源行:
原文链接:LMSys官方发布推文
背景报道:
· FlashAttention-2官方论文(arXiv) — 提供稀疏注意力IO复杂度分析的基准方法论
· vLLM官方文档 — 主流推理框架对PagedAttention和KV Cache管理的现有实现,可对比HiSparse的差异化

本解读由 AI 自动生成,仅供参考。请以原文为准。