← 返回资讯
芯片 @vllm_project 2026-06-08

vLLM-Omni v0.22.0 支持 Cosmos 3 世界模型与 Qwen3-TTS

重大更新支持 NVIDIA Cosmos 3 多模态模型(文本/图/音/视频/动作)、DreamZero 机器人服务、Qwen3 系列语音模型及更广泛量化方案。

查看原文
TL;DR · 产品解读

vLLM-Omni v0.22.0 正式支持 NVIDIA Cosmos 3 世界模型和 Qwen3-TTS,标志着开源推理框架在多模态 Agent 领域进一步补全生态。Cosmos 3 的加入让物理 AI(机器人/自动驾驶)推理成本大幅下降,Qwen3-TTS 则填补了中文语音合成的端侧部署空白。

深度解读

事件维度:开源推理框架的物理 AI 布局

vLLM-Omni 是 vLLM 项目的多模态扩展分支,专注于端到端的语音、视频、动作等多模态推理场景。此次 v0.22.0 的核心更新是将 NVIDIA Cosmos 3 世界模型纳入官方支持列表。Cosmos 3 是 NVIDIA 在 2025 年底发布的多模态基础模型,能够同时处理文本、图像、音频、视频和动作序列,被广泛用于机器人仿真、自动驾驶数据生成和具身智能训练。

为什么是现在?2026 年上半年,物理 AI 进入落地冲刺阶段。Figure、1X、宇树等机器人厂商纷纷公布量产计划,而行业痛点在于:世界模型的推理成本极高,单次仿真 rollout 可能消耗数百美元。vLLM-Omni 的原生支持意味着开发者可以在统一的推理引擎中部署 Cosmos 3,无需依赖 NVIDIA 专属容器,预计可将推理成本压缩 30-50%。

行业影响:Qwen3-TTS 补全语音交互最后一环

此次更新的另一重点是 Qwen3 系列语音模型(包括 TTS 和 ASR)的完整支持。Qwen3 是阿里巴巴通义千问的下一代基座模型,在中文理解、指令遵循和多轮对话上较 Qwen2 有显著提升。将 TTS(文本转语音)纳入 vLLM-Omni,意味着开发者可以在单一框架

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. vLLM Project 官方公告 · 2026-06-08
  2. NVIDIA Cosmos 3 技术文档 · 2025-12-15
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。