← 返回资讯
产品发布 @Alibaba_Qwen 2026-04-29

@Alibaba_Qwen:开源 FlashQLA 高性能线性注意力 Kernel

通义千问推出基于 TileLang 的 FlashQLA:前向 2-3 倍、后向 2 倍加速,专为端侧 Agentic AI 设计,在小模型、长上下文与张量并行场景下收益尤为明显。

查看原文
AI 资讯解读

核心要点

2026年4月29日,阿里巴巴通义千问团队正式开源 FlashQLA——一款基于 TileLang 架构的高性能线性注意力 Kernel。该项目瞄准端侧 Agentic AI 场景,官方数据显示其在前向传播(forward)阶段实现 2-3 倍加速,后向传播(backward)阶段实现约 2 倍加速。在小模型部署、长上下文处理以及张量并行(Tensor Parallelism)等关键场景下收益尤为突出,标志着阿里在端侧 AI 推理优化领域迈出重要一步。

原文 + 中文翻译

原文:"FlashQLA: High-performance linear attention kernel built on TileLang. Forward: 2-3x faster. Backward: ~2x faster. Optimized for on-device Agentic AI, small models, long context & tensor parallelism scenarios." 翻译:FlashQLA:基于 TileLang 构建的高性能线性注意力 Kernel。前向:2-3 倍加速。后向:约 2 倍加速。针对端侧 Agentic AI、小模型、长上下文及张量并行场景进行优化。

深度解读

一、线性注意力:端侧部署的关键突破口

传统 Transformer 的核心瓶颈在于 Self-Attention 的二次复杂度——序列长度每翻一倍,计算量和内存占用就增长四倍。这对于内存和算力受限的端侧设备(如手机、汽车座舱、IoT 设备)而言几乎是不可逾越的障碍。线性注意力(Linear Attention)通过将 softmax注意力近似为线性操作,将复杂度从 O(n²) 降至 O(n),理论上可支撑超长序列的端侧推理。然而长期以来,线性注意力在实现效率上难以与优化后的标准注意力抗衡,实际落地案例寥寥。FlashQLA 的开源正是为了填补这一工程化鸿沟——通过 TileLang 的 tiled computation 抽象,把线性注意力 Kernel 做到接近甚至超越标准注意力的执行效率,让「长上下文 + 端侧」成为可落地的产品组合。

二、TrieLang:底层编译优化的架构支点

FlashQLA 基于 TileLang 构建,这一点值得深入关注。TileLang(平铺语言)是一类新兴的算子编译框架,其核心思想是将计算划分为规则的「瓦片」(tile)并利用硬件的本地性(locality)最大化数据复用。与传统 FlashAttention 系列基于手工 CUDA/Triton Kernel 不同,TileLang 更接近编译器级别的抽象,便于在多种硬件后端(GPU/NPU/DSP)上自动生成高效代码。若 FlashQLA 确实实现了「前向 2-3 倍、后向 2 倍」提升,这意味着 TileLang 在线性注意力的自动向量化上已相当成熟,可大幅降低后续芯片适配成本。

三、与行业竞品的差异化定位

当前线性注意力赛道已有多个玩家:MIT 的 RetNet、DeepMind 的 Griffin、市场上还有 Mamba/Mamba2 等状态空间模型(SSM)方案。FlashQLA 的差异化在于三点:其一,明确锚定「端侧 Agentic AI」——强调的是自主决策、多轮交互而非简单的内容生成,这与阿里在钉钉、夸克、通义 App 等产品的端侧 AI 战略一脉相承;其二,针对「张量并行」场景优化,说明阿里预期这一 Kernel 也会被用于服务端多卡推理,而非纯端侧;其三,背靠开源生态——开放后社区可快速迭代,反哺千问自身模型优化。

值得关注

信源行:
原文链接:https://x.com/Alibaba_Qwen/status/2049462666734026923
背景报道:Hugging Face Qwen 官方仓库(持续追踪千问系列模型更新);Hacker News(AI 技术社区讨论帖)可能已产生相关讨论帖。

本解读由 AI 自动生成,仅供参考。请以原文为准。