通义千问开源 FlashQLA:端侧 Agent 用的高性能线性注意力内核
Qwen 团队发布 FlashQLA,基于 TileLang 构建的高性能线性注意力内核,前向加速 2-3 倍、反向加速 2 倍,专为个人设备上的 Agent 工作负载设计,含门驱动的卡内 CP、硬件友好代数重构、TileLang warp 专用融合内核三大机制。
查看原文核心要点
2026 年 4 月 29 日,通义千问团队正式开源 FlashQLA(Flash Query Linear Attention),这是一款基于自研 TileLang 框架构建的高性能线性注意力内核,专为端侧 Agent 场景优化。该内核通过门驱动的卡内 CP(卡内条件预测)、硬件友好代数重构、以及 TileLang warp 专用融合内核三大技术创新,实现前向传播加速 2-3 倍、反向传播加速 2 倍的显著性能提升,填补了个人设备端高性能线性注意力方案的空白。
原文 + 中文翻译
原文:We are excited to announce FlashQLA, a high-performance linear attention kernel built on TileLang, designed specifically for on-device Agent workloads. FlashQLA delivers 2-3× forward pass speedup and 2× backward pass speedup through three key mechanisms: gated intra-device CP, hardware-friendly algebraic reformulation, and TileLang warp-specialized fused kernels.
翻译:我们很高兴宣布 FlashQLA 的发布——这是一款基于 TileLang 构建的高性能线性注意力内核,专为端侧 Agent 工作负载设计。FlashQLA 通过三大关键机制实现前向传播 2-3 倍加速和反向传播 2 倍加速:门驱动的卡内条件预测(CP)、硬件友好的代数重构、以及 TileLang warp 专用融合内核。
深度解读
一、技术突破:为何 FlashQLA 对端侧 Agent 至关重要
线性注意力(Linear Attention)相较于标准 Transformer 的二次复杂度注意力机制,在理论上具备 O(n) 而非 O(n²) 的序列长度扩展优势。然而长期以来,线性注意力在硬件实现层面的实际性能表现并不稳定,尤其在 GPU 等主流硬件上的kernel融合优化远不如 Flash Attention 成熟。FlashQLA 的核心价值在于,它不仅停留在算法层面的线性复杂度宣称,而是通过 TileLang 框架将线性注意力的硬件亲和性(hardware affinity)提升到可工程部署的水平。门驱动的卡内 CP 机制尤其值得关注——它允许模型在单卡内部根据中间状态动态决定是否跳过或简化某些计算路径,这种条件化计算(conditional computation)对于需要实时响应的 Agent 场景意义重大。
二、行业格局:端侧 AI 竞争进入kernel层深水区
2025 年下半年以来,端侧 AI 的竞争焦点已从模型参数规模竞争逐步下沉至推理效率层。各大厂商陆续发布小尺寸模型(如 Qwen2.5-0.5B、Llama-3.2-1B 等),但硬件层面的推理优化成为差异化关键。Flash Attention 在 2022 年的开源推动了标准 Transformer 在推理侧的普及,而 FlashQLA 代表的线性注意力kernel化趋势,指向一个更长期的方向:在 Agent 多轮交互场景中,线性注意力能够更好地支撑状态追踪和长程依赖建模,同时控制计算资源的消耗。通义千问团队选择此时开源 FlashQLA,与近期阿里在通义 App 和夸克产品线加速 Agent 化升级的战略高度协同。
三、技术路径:TileLang 框架的生态战略
FlashQLA 基于 TileLang 构建这一点值得特别关注。TileLang 是 Qwen 团队自研的 tiling-based 编程抽象框架,允许开发者以 tile 为粒度描述计算图并自动生成硬件优化代码。相比直接编写 CUDA/汇编 kernel,TileLang 提供了更高层次的编程模型,同时保留了硬件特化优化的空间。FlashQLA 作为 TileLang 上的第一个公开高性能线性注意力实现,验证了该框架在生产级kernel开发上的可行性,同时为未来更多专用kernel(如 MoE 路由、混合专家选择等)奠定基础。
值得关注
- FlashQLA 的 GitHub 仓库何时正式开放?开源协议选择(Apache 2.0 / MIT)将影响企业采用意愿,需关注是否包含预训练权重或仅限 kernel 代码。
- TileLang 框架是否会独立开源——若该框架本身开放,将对国产 AI 基础设施生态产生深远影响。
- 门驱动卡内 CP 机制在具体模型上的有效性验证:通义千问是否会同步发布基于 FlashQLA 的 1B 以下参数模型 Benchmark?
- 与其他线性注意力实现(如 Ring Attention 的线性变体、SoTA 的 RetNet 实现)在标准测试集上的性能对比,尤其是推理延迟和内存占用的量化指标。
- 移动端/嵌入式芯片适配计划:FlashQLA 当前优化重点在 GPU,若后续支持 NPU(神经网络处理器)或专用 AI 芯片,将直接赋能手机端 Agent 部署。
信源行:
原文链接:X.com @Alibaba_Qwen
背景报道:通义千问团队于 2025 年发布 Qwen2.5 系列模型,其中 0.5B/1.5B 等小模型专为端侧场景设计(Qwen Blog);TileLang 框架最早在 2025 年底的学术/技术分享中提及,旨在解决自定义算子在 AI 芯片上的高效部署问题。