通义千问:Qwen3.6-35B-A3B 开源,3B 激活对标 10 倍体量
阿里开源稀疏 MoE 模型 Qwen3.6-35B-A3B,总参 35B、激活 3B,Apache 2.0 协议;声称编码 Agent 能力可比肩激活量 10 倍的模型,支持多模态思考与非思考双模式。
查看原文AI 资讯解读
```html
核心要点
2026 年 4 月 16 日,阿里巴巴通义千问团队正式开源稀疏 MoE(Mixture of Experts)大模型 Qwen3.6-35B-A3B。该模型总参数量 35B,激活参数量仅 3B,采用 Apache 2.0 许可证开放商用。作为稀疏 MoE 架构的核心优势,模型以 3B 的激活规模实现了对标约 30B 激活量密集模型的性能表现,尤其在编码与 Agent 任务上声称达到 10 倍激活量级模型的水平。此外,该模型首次引入多模态思考与非思考双模式,可在推理时根据任务复杂度灵活切换,从而在效率与效果之间取得更优平衡。原文 + 中文翻译
原文(来自 @Alibaba_Qwen 官方账号):"We are excited to announce the open-sourcing of Qwen3.6-35B-A3B — a sparse MoE model with 35B total parameters and only 3B active parameters, released under Apache 2.0 license. The model achieves coding and Agent capabilities that match models with 10× the activation parameters. It also introduces dual-mode inference for both thinking and non-thinking tasks."翻译: 我们兴奋地宣布开源 Qwen3.6-35B-A3B——一个稀疏 MoE 模型,总参 35B,激活参仅 3B,采用 Apache 2.0 许可证。该模型在编码和 Agent 能力上实现了与激活参数量 10 倍于己的模型相当的表现,同时引入了思考与非思考双模式推理。
深度解读
1. 稀疏 MoE 架构的战略意义:从「大力出奇迹」到「精准用力」
过去两年,大模型竞争的主旋律围绕「参数规模」展开,各家厂商纷纷推出百亿、千亿参数模型。但随着模型规模扩大,推理成本呈线性甚至超线性增长,商业落地面临严峻挑战。稀疏 MoE 架构的核心理念是:并非所有输入都需要激活全部参数——通过门控机制(routing),每次推理只激活一小部分「专家」网络,从而在总参数量大而激活参数量小的前提下保持甚至提升模型能力。 Qwen3.6-35B-A3B 将这一理念推进到了新的节点:总参 35B,激活仅 3B,比例约为 12:1(12 个参数中只有 1 个参与实际推理)。这意味着在相同硬件条件下,该模型的推理吞吐量可达同等激活量的密集模型水平,但模型容量却相当于一个完整 35B 的密集模型。对于部署侧而言,这意味着可以用 3B 级别的算力消耗运行 35B 级别的模型能力,边际成本大幅下降。2. 编码与 Agent 能力比肩 10 倍激活量级——这一声称意味着什么?
「10 倍激活量」暗示其编码能力可对标约 30B 激活参数的密集模型(如 Llama-3-70B 级别的表现)。若此声称属实,其技术含义至少有二:其一,门控机制已能较为精准地将复杂编码任务路由到最合适的专家子网络,使得单次前向传播的信息密度大幅提升;其二,模型在预训练阶段已通过大规模高质量代码数据完成了专家分化,使「编码」成为 MoE 架构中专家网络高度专精的领域之一。 这对 Agent 应用尤为关键。当前 Agent 系统(如代码自动化、多步骤任务规划)普遍依赖大参数密集模型来保证推理质量,但推理成本居高不下。Qwen3.6-35B-A3B 若能以 3B 激活成本实现接近 30B 密集模型的表现,将显著拓宽 Agent 产品的商业化路径——从云端高成本部署转向边缘设备甚至端侧运行,降低 Agent 的落地门槛。3. 多模态思考与非思考双模式:推理时的「自适应功耗」
这是该模型在产品层面最值得关注的新特性。传统模型在所有任务上采用统一的推理模式,导致简单任务消耗了不必要的推理资源(如长思维链的思考过程)。双模式机制的引入本质上是将「System 1 / System 2」认知框架(快速直觉响应 vs. 慢速深度思考)从模型训练层内嵌到推理流程中:复杂任务触发思考模式,生成完整推理链路;简单任务走非思考模式,直接输出结果。 这一设计与当前行业趋势高度吻合——OpenAI o3/o4mini 系列、Google Gemini Flash Thinking 等均在不同程度上采用了类似思路。Qwen3.6-35B-A3B 将其开源化,意味着社区可以基于此架构探索更细粒度的动态推理控制。4. 开源生态的竞争格局:与 Mixtral、LLaMA-MoE 的差异化
稀疏 MoE 开源领域并非蓝海:Mistral 的 Mixtral-8x7B(总 46B / 激活 12B)、LLaMA-MoE 等已建立了一定的生态认知。Qwen3.6-35B-A3B 的差异化在于:Apache 2.0 许可证(非自定义限制性协议)意味着可自由商用、无需向外分发源码;同时 35B 总参 / 3B 激活的比例更激进(12:1 vs. Mixtral 约 4:1),在保持激活效率上更有优势;再加上通义千问系列已有的中文语料优势、模型工具链(千问框架、ModelScope 生态)的成熟度,使其在中文 Agent 场景的落地阻力更低。值得关注
- 基准测试对比验证:需关注 HuggingFace/OpenCompass 上 Qwen3.6-35B-A3B 与 Mixtral-8x7B、Qwen2.5-72B 在 HumanEval、MBPP、AgentBench 等编码与 Agent 基准上的实际得分数据,10 倍激活量级声称需第三方评测佐证。
- 多模态能力边界:模型声称支持多模态思考,3B 激活参数是否足以支撑视觉理解(如 PDF 解析、图表问答)的质量,需要具体评测与 Demo 验证。
- 双模式推理的硬件需求:思考模式是否显著增加显存占用与延迟?两者在 V100/A100/消费级 GPU(如 RTX 4090)上的实际部署表现对比,将决定该模型的适用场景。
- Apache 2.0 的实际商用边界:Apache 2.0 允许商用且无源码分发要求,但在模型权重分发时是否涉及 Llama/Mistral 等上游模型的许可约束,需要法律层面的明确。
- 后续更大规模 MoE 模型的信号:35B/3B 可能只是通义千问 MoE 系列的起点,需关注阿里是否会在近期开源更大规模(如 100B+ 总参)的 MoE 模型,以对标 GPT-4 级别的能力。
信源行:
原文链接:https://x.com/Alibaba_Qwen/status/2044768734234243427
背景报道:HuggingFace 模型页面 / ModelScope 通义千问官方页 / 36 氪《通义千问密集开源 MoE,3B 激活对标十倍体量模型》(2026-04-16)
本解读由 AI 自动生成,仅供参考。请以原文为准。