← 返回资讯
产品发布 @vllm_project 2026-04-02

vLLM:Gemma 4 正式上线,原生多模态支持、256K 上下文、Apache 2.0 开源

Google 最新开源模型 Gemma 4 已在 vLLM 上可用,支持视觉和音频的原生多模态能力,256K 上下文窗口,首日即支持主流 GPU 架构和 Google TPU,采用 Apache 2.0 许可证。

查看原文
AI 资讯解读

核心要点

2026年4月2日,Google 旗下开源模型 Gemma 4 正式登陆 vLLM 推理引擎,成为该开源社区的重大里程碑事件。Gemma 4 以 Apache 2.0 许可证发布,具备原生视觉(Vision)和音频(Audio)多模态能力,上下文窗口达 256K tokens。vLLM 团队在发布首日即完成对 NVIDIA GPU 主流架构和 Google TPU 的适配支持,这意味着开发者可在本地数据中心或云端无缝部署 Google 最强大的开源多模态模型。

原文 + 中文翻译

原文:
Google just released Gemma 4 on vLLM! 🎉 Native multimodal support for vision and audio, 256K context window, Apache 2.0 licensed. Day-0 support for major GPU architectures and Google TPUs.
翻译:
Google 刚刚在 vLLM 上发布了 Gemma 4!🎉 原生多模态支持(视觉与音频),256K 上下文窗口,Apache 2.0 许可证。首日即支持主流 GPU 架构和 Google TPU。

深度解读

一、vLLM 生态地位再度巩固

vLLM 已成为 LLM 推理领域的"事实标准"——它以 PagedAttention 内存管理技术著称,可将 GPU 利用率提升至传统 HF Transformers 的 24 倍。此次 Gemma 4 首日登陆 vLLM,标志着 Google 选择将最重要的开源模型与社区主导的推理框架深度绑定,而非仅仅依赖 Google Cloud Vertex AI 或icolab 等自家平台。这是一种战略性"放下身段":Google 承认在开源推理优化领域,vLLM 的工程迭代速度和社区覆盖度已超越其内部工具链。对比 Meta 的 Llama 系列通常由社区自发适配,Gemma 4 的"官方 vLLM 支持"意味着更低的部署摩擦和更高的企业采纳率。

二、多模态 + 长上下文的组合意义

256K tokens(约 20 万汉字)的上下文窗口在开源领域极为罕见,此前仅 OpenAI 的 GPT-4o Turbo 和 Anthropic 的 Claude 3.5 提供商业闭源版本。Gemma 4 将这一能力带入 Apache 2.0 开源领域,意味着长文档分析、长程对话记忆、多轮 Agent 任务等场景不再依赖付费 API。结合原生视觉和音频支持,Gemma 4 成为真正的"全能型"开源基础模型——开发者可用单个模型处理文档理解、图表分析、视频帧描述、语音转写等任务,而非拼凑多个专用模型。这对边缘计算和私有部署场景意义重大:企业可在本地机房运行一个模型完成端到端多模态任务,数据无需出域。

三、TPU 与 GPU 的双轨支持格局

vLLM 历来以 NVIDIA CUDA 生态为核心,此次同步支持 Google TPU(张量处理单元)值得关注。TPU 仅在 Google Cloud 上可用,是 Google 在 AI 基础设施层的核心竞争力之一。Gemma 4 的"Day-0 TPU 支持"意味着:开发者若选择在 Google Cloud 上部署,可利用 TPU 的矩阵乘法高吞吐特性获得性价比优势;而选择本地 NVIDIA 方案的用户则保持灵活性。这一双轨策略暗示 Google 正在构建"模型-框架-硬件"的垂直整合护城河——用开源模型吸引用户,用 vLLM 扩大部署覆盖面,最终引导用户进入 Google Cloud 生态。

值得关注

信源行:
原文链接:@vllm_project 官方公告
背景报道:
· Google DeepMind 官方博客 - Gemma 模型系列发布记录
· vLLM 论文 - Efficient Memory Management for Large Language Model Serving (PagedAttention)
· Hacker News 社区讨论 - Gemma 4 与 vLLM 集成

本解读由 AI 自动生成,仅供参考。请以原文为准。