← 返回资讯
研究 @Kimi_Moonshot 2026-04-21

月之暗面开源FlashKDA:Kimi Delta注意力内核,H20上提速1.72-2.22倍

Kimi开源基于CUTLASS的高性能Kimi Delta Attention内核实现FlashKDA,在H20上prefill阶段较flash-linear-attention基线提速1.72-2.22倍,可作为其直接替代后端。

查看原文
AI 资讯解读

核心要点

2026年4月21日,月之暗面(Moonshot AI)正式开源了FlashKDA(Flash Kimi Delta Attention)——基于NVIDIA CUTLASS模板库实现的高性能注意力内核。该内核针对H20 GPU优化,在prefill阶段较flash-linear-attention基线实现1.72–2.22倍加速,且可直接作为替代后端接入现有推理框架,无需大幅改动上层代码。这标志着Kimi将自身核心注意力变体技术以开源形式向社区开放,目标直指降低大模型推理成本、提升部署效率。

原文 + 中文翻译

原文:Kimi开源基于CUTLASS的高性能Kimi Delta Attention内核实现FlashKDA,在H20上prefill阶段较flash-linear-attention基线提速1.72-2.22倍,可作为其直接替代后端。

翻译:Moonshot AI open-sourced FlashKDA, a high-performance Kimi Delta Attention kernel implementation based on CUTLASS. On the H20, it achieves a 1.72–2.22× speedup in the prefill stage compared to the flash-linear-attention baseline, and can serve as a direct drop-in replacement backend.

深度解读

1. 为什么CUTLASS是关键技术选型

CUTLASS是NVIDIA维护的CUDA C++模板库,专门用于编写高性能的矩阵乘法(GEMM)和卷积核。不同于直接手写PTX或使用cuBLAS,CUTLASS允许开发者以模板参数化方式控制数据布局、分块策略、Warp调度等底层细节,从而针对特定算子(如自定义注意力机制)实现接近硬件峰值的性能。将Delta Attention基于CUTLASS实现,意味着团队需要对Kimi Delta的核心计算模式做非常精细的寄存器级调优——包括增量状态更新、因果掩码重排以及H20 SM(Streaming Multiprocessor)架构的缓存层级优化。开源本身即是向社区展示"我们解决了多难的问题",同时为其他基于类似变体注意力架构的研究提供可复用的工程基线。

2. H20的战略意义与性能加速的产业影响

NVIDIA H20是NVIDIA面向中国市场推出的数据中心GPU,受美国出口管制限制,其FP64/FP16算力较H100有大幅削减,但保留了高带宽HBM3e(80GB)和NVLink互联能力。对于部署国产大模型的公司而言,H20几乎是目前能够批量获取的高性能推理芯片。Kimi选择将H20作为FlashKDA的首要优化目标,反映了明确的商业判断:在合规算力约束下,最大化单卡吞吐量。在prefill阶段(处理输入上下文、生成第一个token前的关键阶段)实现1.72–2.22倍加速,意味着同等硬件规模下可支持的并发请求数接近翻倍,直接降低每Token推理成本。对于月之暗面自身的Kimi API服务而言,这一优化将显著改善其商业利润率。

3. 与线性注意力的竞合关系

FlashKDA以flash-linear-attention为基线进行对比,揭示了重要信息:Kimi Delta Attention并非简单的"标准Attention加速",而是在线性注意力(Linear Attention)方向上的进一步改进。传统Transformer的Attention计算复杂度为O(N²),而Linear Attention将其降为O(N),但通常以牺牲部分表达能力为代价。Kimi Delta Attention的增量式设计在保持线性复杂度的同时,可能更好地捕捉了Token间的关键差异信息,从而在质量和速度之间取得了更优的平衡点。FlashKDA能直接替代flash-linear-attention后端,意味着其接口设计遵循了相同的抽象层——很可能兼容vLLM、Text Generation Inference(TGI)或类似推理框架的插件机制,这将大幅降低现有项目迁移成本。

值得关注

信源行:
原文链接:@Kimi_Moonshot (X/Twitter)
背景报道:
· NVIDIA CUTLASS 官方仓库 — 提供CUDA模板库底层技术背景
· Flash-Linear-Attention 论文 (arXiv:2402.01024) — 作为性能对比基线的技术背景
· NVIDIA H20 产品规格与市场定位 (NVIDIA Blog)

本解读由 AI 自动生成,仅供参考。请以原文为准。