← 返回资讯
大模型 @vllm_project 2026-06-01

vLLM-Omni首发Cosmos 3统一多模态模型支持

融合自回归推理与扩散生成的MoE架构支持文本/图像/视频/音频/机器人动作,通过OpenAI兼容API提供开箱即用部署。

查看原文
TL;DR · 产品解读

vLLM 首发支持 Cosmos 3 统一多模态 MoE 模型,融合自回归+扩散双范式,支持 5 模态,通过 OpenAI 兼容 API 简化部署,降低多模态 AI 应用开发门槛。

深度解读

产品是什么

Cosmos 3 是 NVIDIA 推出的统一多模态 MoE(混合专家)模型,本次由 vLLM-Omni 首发支持部署。核心特点是融合自回归推理与扩散生成两种范式——自回归擅长序列文本生成,扩散擅长图像/视频等连续信号的生成质量,两者结合理论上能取长补短。

支持的模态包括:文本、图像、视频、音频、机器人动作,共 5 种。相比之前单一模态或有限多模态的模型,这是一个真正意义的统一架构。

解决什么问题

过去多模态模型通常是"文本+图像"的浅层融合,或需要多个专用模型协作。Cosmos 3 的统一架构理论上:

这对需要同时处理多种媒体的企业级应用(如内容审核、多模态搜索、具身智能)很有吸引力。

对比同类竞品

参考来源
  1. vLLM Project 首发公告 · 2026-06-01
  2. vLLM 官方文档 · 2026-01-01
  3. NVIDIA Cosmos 模型技术报告 · 2026-01-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。