月之暗面开源FlashKDA:Kimi Delta注意力内核,H20上提速1.72-2.22倍
Kimi开源基于CUTLASS的高性能Kimi Delta Attention内核实现FlashKDA,在H20上prefill阶段较flash-linear-attention基线提速1.72-2.22倍,可作为其直接替代后端。
查看原文核心要点
2026年4月21日,月之暗面(Moonshot AI)正式开源了FlashKDA(Flash Kimi Delta Attention)——基于NVIDIA CUTLASS模板库实现的高性能注意力内核。该内核针对H20 GPU优化,在prefill阶段较flash-linear-attention基线实现1.72–2.22倍加速,且可直接作为替代后端接入现有推理框架,无需大幅改动上层代码。这标志着Kimi将自身核心注意力变体技术以开源形式向社区开放,目标直指降低大模型推理成本、提升部署效率。
原文 + 中文翻译
原文:Kimi开源基于CUTLASS的高性能Kimi Delta Attention内核实现FlashKDA,在H20上prefill阶段较flash-linear-attention基线提速1.72-2.22倍,可作为其直接替代后端。
翻译:Moonshot AI open-sourced FlashKDA, a high-performance Kimi Delta Attention kernel implementation based on CUTLASS. On the H20, it achieves a 1.72–2.22× speedup in the prefill stage compared to the flash-linear-attention baseline, and can serve as a direct drop-in replacement backend.
深度解读
1. 为什么CUTLASS是关键技术选型
CUTLASS是NVIDIA维护的CUDA C++模板库,专门用于编写高性能的矩阵乘法(GEMM)和卷积核。不同于直接手写PTX或使用cuBLAS,CUTLASS允许开发者以模板参数化方式控制数据布局、分块策略、Warp调度等底层细节,从而针对特定算子(如自定义注意力机制)实现接近硬件峰值的性能。将Delta Attention基于CUTLASS实现,意味着团队需要对Kimi Delta的核心计算模式做非常精细的寄存器级调优——包括增量状态更新、因果掩码重排以及H20 SM(Streaming Multiprocessor)架构的缓存层级优化。开源本身即是向社区展示"我们解决了多难的问题",同时为其他基于类似变体注意力架构的研究提供可复用的工程基线。
2. H20的战略意义与性能加速的产业影响
NVIDIA H20是NVIDIA面向中国市场推出的数据中心GPU,受美国出口管制限制,其FP64/FP16算力较H100有大幅削减,但保留了高带宽HBM3e(80GB)和NVLink互联能力。对于部署国产大模型的公司而言,H20几乎是目前能够批量获取的高性能推理芯片。Kimi选择将H20作为FlashKDA的首要优化目标,反映了明确的商业判断:在合规算力约束下,最大化单卡吞吐量。在prefill阶段(处理输入上下文、生成第一个token前的关键阶段)实现1.72–2.22倍加速,意味着同等硬件规模下可支持的并发请求数接近翻倍,直接降低每Token推理成本。对于月之暗面自身的Kimi API服务而言,这一优化将显著改善其商业利润率。
3. 与线性注意力的竞合关系
FlashKDA以flash-linear-attention为基线进行对比,揭示了重要信息:Kimi Delta Attention并非简单的"标准Attention加速",而是在线性注意力(Linear Attention)方向上的进一步改进。传统Transformer的Attention计算复杂度为O(N²),而Linear Attention将其降为O(N),但通常以牺牲部分表达能力为代价。Kimi Delta Attention的增量式设计在保持线性复杂度的同时,可能更好地捕捉了Token间的关键差异信息,从而在质量和速度之间取得了更优的平衡点。FlashKDA能直接替代flash-linear-attention后端,意味着其接口设计遵循了相同的抽象层——很可能兼容vLLM、Text Generation Inference(TGI)或类似推理框架的插件机制,这将大幅降低现有项目迁移成本。
值得关注
- GitHub仓库与文档完整性:关注FlashKDA在GitHub上的实际仓库结构——是否提供基准测试脚本、支持的序列长度范围(如4K/32K/128K)、以及与H100/H800等其他GPU的兼容性数据。文档中是否包含"如何将其接入vLLM"的step-by-step guide将直接影响社区采用率。
- Kimi Delta Attention的技术论文:此次开源是首次公开Kimi Delta的具体算法设计,还是已有先期论文?若存在对应的arXiv论文,需验证1.72–2.22倍加速的具体评测条件(batch size、序列长度、精度模式FP16/BF16)。
- H20以外的硬件适配计划:Kimi是否透露了针对H100、AMD MI300X或国产芯片(如昇腾910B)的优化路线图?在H20之外,FlashKDA的可移植性决定了其能否成为行业标准后端。
- 社区采纳与性能复现:开源后3-6个月内,是否有独立第三方(如EleutherAI、HuggingFace工程团队)复现并发布H20上的基准测试结果?社区反馈中的"坑"(如CUDA版本依赖、内存泄漏问题)将揭示该实现的工程成熟度。
- 与月之暗面商业模型的协同:FlashKDA开源后,Kimi API是否会同步升级至基于该内核的推理引擎?用户能否感知到Kimi模型在长文本处理上的响应速度变化?这一开源行为是否伴随Kimi上下文窗口支持能力的扩展(如从128K到256K)?
信源行:
原文链接:@Kimi_Moonshot (X/Twitter)
背景报道:
· NVIDIA CUTLASS 官方仓库 — 提供CUDA模板库底层技术背景
· Flash-Linear-Attention 论文 (arXiv:2402.01024) — 作为性能对比基线的技术背景
· NVIDIA H20 产品规格与市场定位 (NVIDIA Blog)