产品发布 @GoogleDeepMind 2026-04-02

Google DeepMind：Gemma 发布四个尺寸，31B Dense 到 Edge 2B 全覆盖

Google DeepMind 发布 Gemma 新版本四个尺寸：31B Dense 和 26B MoE（本地推理）+ E4B 和 E2B（移动端，实时文本/视觉/音频处理）。

AI 资讯解读

核心要点

2026年4月2日，Google DeepMind 正式发布 Gemma 系列四个尺寸的新版本，完成了从服务器端（31B Dense / 26B MoE）到移动端（E4B / E2B Edge）的全谱系覆盖。此次发布将 Google 开源模型家族的端侧能力推向了新的量级，Edge 版本明确以「实时文本/视觉/音频处理」为核心场景，标志着 Google 正在将 Gemini 级别的多模态能力向终端设备下放。

原文 + 中文翻译

原文： "Gemma — now in four sizes: 31B Dense & 26B MoE for local inference. And E4B & E2B for mobile. Real-time text, vision & audio processing on-device." — @GoogleDeepMind, April 2, 2026

翻译：「Gemma — 现已推出四个尺寸：31B Dense 与 26B MoE 用于本地推理；E4B 与 E2B 用于移动端。在设备端实现实时文本、视觉与音频处理。」

深度解读

一、MoE 架构正式进入 Gemma 产品线

26B MoE 的出现是本次发布最值得关注的架构变化。此前 Gemma 家族以 Dense 模型为主（1B / 2B / 7B / 12B），26B MoE 意味着 Google 在开源产品线中引入了稀疏激活机制。以往 MoE（Mixture of Experts）多见于闭源大模型（如 GPT-4、Mixtral），Gemma 26B MoE 将这种「用更少激活参数完成推理」的架构思路带入开源社区，意味着同等硬件条件下，开发者可以获得更低的推理延迟和更高的吞吐。对于本地部署场景（个人开发者/中小企业），MoE 模型能在 30B 参数规模下接近甚至达到 Dense 31B 的能力，同时降低算力门槛，这是一步有战略意义的棋。

二、Edge 端全模态处理能力的完整下放

E4B 和 E2B（推测 B 代表 Billion 参数）针对的是移动端和端侧场景，且明确支持「实时文本/视觉/音频」三类模态的 on-device 处理。这与 Apple Intelligence、Qualcomm AI Hub 的端侧多模态路线高度一致，但 Google 的优势在于其底层仍是 Gemma——一个与 Gemini 共享同一套预训练数据与安全过滤体系的产品。这意味着 E4B/E2B 在安全对齐（Safety Alignment）上不会因为模型小而出现显著降级，这是很多端侧开源模型（如 TinyLlama、Vicuna）的共同短板。

三、开源模型竞争格局的重新洗牌

Llama 3 最大的版本停在 70B，Mistral 则有 MoE 架构但文档化程度有限。Gemma 26B MoE 若以 Apache License 2.0 或类似许可证发布，将直接与 Mistral Mixtral 系列竞争，同时 31B Dense 版本则填补了 7B 到 70B 之间的空白档位。移动端 E 系列则几乎是独家定位——Meta 的 LLaMA Mobile 目前并无独立产品化版本。Google 此举的战略意图非常清晰：用全尺寸、多场景的开源模型矩阵，锁定从云计算到手机/IoT 的每一层算力市场，避免开发者因「 Gemma 太大或太小」而转向竞品。

值得关注

许可证类型：截至目前 DeepMind 尚未披露 Gemma 新尺寸的具体许可证条款（Commercial / Research / Apache 2.0），这将直接影响企业用户的集成意愿，尤其是 26B MoE 若允许商业使用，将对 Mistral API 市场形成冲击。
技术报告 / Benchmark 数据：E4B/E2B 的 on-device 多模态性能（参数量 vs. 推理延迟 / 能耗）尚未公开。与 Qualcomm Snapdragon NPU、Apple Neural Engine 的适配优化程度是关键观测点。
与 Gemma 3 的关系：Gemma 3 此前发布为 2B / 7B / 12B / 27B 四个尺寸，新版本 31B Dense / 26B MoE 是否为独立系列还是下一代演进，需要后续确认产品定位。
Google AI Studio / Vertex AI 集成时间表：企业用户通常通过云平台调用，若 26B MoE 同时上线 Google Cloud，会进一步压缩第三方推理服务的生存空间。
开发者社区适配进度：Ollama / LM Studio / vLLM 等推理框架对 Gemma 26B MoE 的量化支持（INT4 / INT8）的适配速度，决定了普通开发者能否快速上手。

信源行：
• 原文链接：https://x.com/GoogleDeepMind/status/2039735449829203971
• 背景报道：The Verge 同期报道了 Google 开源模型战略布局；VentureBeat AI 频道对 Gemma 系列有持续追踪；Hugging Face 模型卡已出现 26B MoE 早期文件（需官方确认）。

本解读由 AI 自动生成，仅供参考。请以原文为准。