Google DeepMind:Gemma 发布四个尺寸,31B Dense 到 Edge 2B 全覆盖
Google DeepMind 发布 Gemma 新版本四个尺寸:31B Dense 和 26B MoE(本地推理)+ E4B 和 E2B(移动端,实时文本/视觉/音频处理)。
查看原文核心要点
2026年4月2日,Google DeepMind 正式发布 Gemma 系列四个尺寸的新版本,完成了从服务器端(31B Dense / 26B MoE)到移动端(E4B / E2B Edge)的全谱系覆盖。此次发布将 Google 开源模型家族的端侧能力推向了新的量级,Edge 版本明确以「实时文本/视觉/音频处理」为核心场景,标志着 Google 正在将 Gemini 级别的多模态能力向终端设备下放。
原文 + 中文翻译
原文: "Gemma — now in four sizes: 31B Dense & 26B MoE for local inference. And E4B & E2B for mobile. Real-time text, vision & audio processing on-device." — @GoogleDeepMind, April 2, 2026
翻译:「Gemma — 现已推出四个尺寸:31B Dense 与 26B MoE 用于本地推理;E4B 与 E2B 用于移动端。在设备端实现实时文本、视觉与音频处理。」
深度解读
一、MoE 架构正式进入 Gemma 产品线
26B MoE 的出现是本次发布最值得关注的架构变化。此前 Gemma 家族以 Dense 模型为主(1B / 2B / 7B / 12B),26B MoE 意味着 Google 在开源产品线中引入了稀疏激活机制。以往 MoE(Mixture of Experts)多见于闭源大模型(如 GPT-4、Mixtral),Gemma 26B MoE 将这种「用更少激活参数完成推理」的架构思路带入开源社区,意味着同等硬件条件下,开发者可以获得更低的推理延迟和更高的吞吐。对于本地部署场景(个人开发者/中小企业),MoE 模型能在 30B 参数规模下接近甚至达到 Dense 31B 的能力,同时降低算力门槛,这是一步有战略意义的棋。
二、Edge 端全模态处理能力的完整下放
E4B 和 E2B(推测 B 代表 Billion 参数)针对的是移动端和端侧场景,且明确支持「实时文本/视觉/音频」三类模态的 on-device 处理。这与 Apple Intelligence、Qualcomm AI Hub 的端侧多模态路线高度一致,但 Google 的优势在于其底层仍是 Gemma——一个与 Gemini 共享同一套预训练数据与安全过滤体系的产品。这意味着 E4B/E2B 在安全对齐(Safety Alignment)上不会因为模型小而出现显著降级,这是很多端侧开源模型(如 TinyLlama、Vicuna)的共同短板。
三、开源模型竞争格局的重新洗牌
Llama 3 最大的版本停在 70B,Mistral 则有 MoE 架构但文档化程度有限。Gemma 26B MoE 若以 Apache License 2.0 或类似许可证发布,将直接与 Mistral Mixtral 系列竞争,同时 31B Dense 版本则填补了 7B 到 70B 之间的空白档位。移动端 E 系列则几乎是独家定位——Meta 的 LLaMA Mobile 目前并无独立产品化版本。Google 此举的战略意图非常清晰:用全尺寸、多场景的开源模型矩阵,锁定从云计算到手机/IoT 的每一层算力市场,避免开发者因「 Gemma 太大或太小」而转向竞品。
值得关注
- 许可证类型:截至目前 DeepMind 尚未披露 Gemma 新尺寸的具体许可证条款(Commercial / Research / Apache 2.0),这将直接影响企业用户的集成意愿,尤其是 26B MoE 若允许商业使用,将对 Mistral API 市场形成冲击。
- 技术报告 / Benchmark 数据:E4B/E2B 的 on-device 多模态性能(参数量 vs. 推理延迟 / 能耗)尚未公开。与 Qualcomm Snapdragon NPU、Apple Neural Engine 的适配优化程度是关键观测点。
- 与 Gemma 3 的关系:Gemma 3 此前发布为 2B / 7B / 12B / 27B 四个尺寸,新版本 31B Dense / 26B MoE 是否为独立系列还是下一代演进,需要后续确认产品定位。
- Google AI Studio / Vertex AI 集成时间表:企业用户通常通过云平台调用,若 26B MoE 同时上线 Google Cloud,会进一步压缩第三方推理服务的生存空间。
- 开发者社区适配进度:Ollama / LM Studio / vLLM 等推理框架对 Gemma 26B MoE 的量化支持(INT4 / INT8)的适配速度,决定了普通开发者能否快速上手。
信源行:
• 原文链接:https://x.com/GoogleDeepMind/status/2039735449829203971
• 背景报道:The Verge 同期报道了 Google 开源模型战略布局;VentureBeat AI 频道对 Gemma 系列有持续追踪;Hugging Face 模型卡已出现 26B MoE 早期文件(需官方确认)。