← 返回资讯
大模型 @Alibaba_Qwen 2026-04-16

通义千问:Qwen3.6-35B-A3B 编码与推理能力显著领先前代

Qwen3.6-35B-A3B 在多项关键编码基准上超越密集 27B 参数的 Qwen3.5-27B,并在 Agent 编码与推理任务上大幅超越直接前代 Qwen3.5-35B-A3B。

查看原文
AI 资讯解读
```html

核心要点

2026 年 4 月 16 日,阿里巴巴通义千问团队通过官方 X 账号 @Alibaba_Qwen 披露了 Qwen3.6 系列的首个模型 Qwen3.6-35B-A3B。该模型在多项关键编码基准上超越了密集(Dense)架构的 27B 参数模型 Qwen3.5-27B,并在 Agent 编码与推理任务上大幅超越直接前代 Qwen3.5-35B-A3B。值得注意的是,"A3B"后缀很可能代表一种借鉴自 DeepSeek-V3 的 Active-FFN 机制,表明 Qwen3.6 已从纯 MoE(混合专家)路线向更精细化的稀疏激活策略演进。

原文 + 中文翻译

原文: "@Alibaba_Qwen: Qwen3.6-35B-A3B outperforms the dense 27B model Qwen3.5-27B across multiple key coding benchmarks, and surpasses its direct predecessor Qwen3.5-35B-A3B significantly on Agent coding and reasoning tasks."

翻译: "@Alibaba_Qwen: Qwen3.6-35B-A3B 在多项关键编码基准上超越密集 27B 模型 Qwen3.5-27B,并在 Agent 编码与推理任务上大幅超越其直接前代 Qwen3.5-35B-A3B。"

深度解读

1. MoE 与 Active-FFN 融合:架构迭代的第三条路

"A3B"后缀的含义值得深究。结合 2025 年底 DeepSeek-V3 发布时披露的 Active-FFN(激活前馈网络)机制,"A3B"极有可能指代每 3 个 Token 激活 1 组 FFN 专家的稀疏策略。这一设计介于传统 MoE(大量专家中每次激活少数几个)和 Dense(全部激活)之间,在保持模型容量优势的同时,试图以更细粒度的激活模式提升推理质量。对于 Qwen3.6 系列而言,这意味着团队不再单纯追求"更大专家数 × 更少激活比例"的暴力 MoE 扩展,而是开始精细化调度稀疏计算资源。

2. 编码与 Agent 能力的双重突破意味着什么

基准测试中超越 Qwen3.5-27B 这一点极具战略意义:35B 参数的稀疏模型(实际激活参数更少)在编码任务上打败了 27B 的密集模型,说明推理阶段的实际算力消耗可能接近甚至低于 27B 密集模型。对于需要本地部署或边缘计算的 Agent 应用场景,这是一个关键的性价比信号。更重要的是,它在 Agent 编码与推理任务上"大幅超越"直接前代 Qwen3.5-35B-A3B,表明 Active-FFN 机制对多步骤工具调用、代码生成一致性等 Agent 典型工作流的增益尤为显著。

3. 对行业竞争格局的影响

Qwen3.6-35B-A3B 的发布进一步压缩了中等参数区间的模型竞争空间。此前,Meta 的 Llama 4 Scout(109B MoE)、Mistral 的 Mistral Small 都试图在 30-110B 区间找到"高性能 + 可承受推理成本"的平衡点。Qwen3.6 凭借 35B 级别的实际激活规模,在保持竞争优势的同时,对部署在消费级 GPU 或企业级单卡环境的场景更具吸引力。结合阿里近期在通义开源生态上的加速布局,这一发布也是对 OpenAI GPT-4.1 系列、Anthropic Claude 3.5 系列在编码赛道上的正面回应。

值得关注

信源行:
• 原文链接:X @Alibaba_Qwen 推文
• 背景报道:DeepSeek-V3 技术报告(Active-FFN 机制参考);Hugging Face Qwen3.5-27B 模型页(前代基准对照)

```
本解读由 AI 自动生成,仅供参考。请以原文为准。