← 返回资讯
产品发布 @runwayml 2026-04-07

Runway:Seedance 2.0 正式上线,支持文本/图片/视频/音频多模态输入

Runway 宣布 Seedance 2.0 上线平台,支持文本、图片、视频和音频作为输入生成多镜头视频序列,含完整音效和对话,面向 Unlimited 和企业用户。

查看原文
AI 资讯解读
```html

核心要点

2026年4月7日,Runway 正式发布 Seedance 2.0 模型,这是其旗舰视频生成产品的重大迭代版本。新版本实现了真正的多模态输入——支持文本、图片、视频和音频四种模态作为生成条件,一次性输出包含多个镜头序列的完整视频内容,并且内置音效和对话生成能力。该功能目前向 Unlimited 套餐用户和企业客户开放,标志着 Runway 在长视频可控性和多模态融合方向上迈出关键一步。

原文 + 中文翻译

原文:"Seedance 2.0 is live. Text, image, video, and audio inputs — all supported. Generate multi-shot sequences with full sound design and dialogue. Now available for Unlimited and Enterprise users."

翻译:"Seedance 2.0 已上线。文本、图片、视频和音频输入——全部支持。生成多镜头序列,包含完整音效设计和对话。现在对 Unlimited 和企业用户开放。"

深度解读

多模态融合从"加分项"变为"基础架构"

Seedance 2.0 最具突破性的变化在于将多模态输入从单点能力升级为系统性架构。过去大多数视频生成模型的多模态支持停留在"文生视频"或"图生视频"的单一路径,用户需要在不同工具间切换才能完成复杂项目。Seedance 2.0 让用户可以在单个生成任务中同时引用多种素材——比如用一段参考视频定义运镜风格、用一张概念图锁定视觉方向、用一段音频指定情绪基调,最终输出整合后的成片。这种"一站式"体验将显著降低专业用户的工作流复杂度,尤其对于需要快速验证创意概念的广告团队和独立创作者而言。

"多镜头序列"能力直指短片制作场景

一次性生成包含多个镜头转折的视频序列,是本次更新的另一核心卖点。传统视频生成工具的输出通常是单个镜头或片段的循环拼接,缺乏叙事性和镜头语言。Seedance 2.0 明确瞄准"短片级"输出能力,这意味着 AI 生成的视频开始具备一定的叙事结构和视觉节奏感。从商业角度看,这一能力直接与 Runway 的 Enterprise 定价策略挂钩——企业用户通常需要可交付级别的完整内容,而非半成品素材。该能力的成熟度将决定 Runway 能否在 Pika、Sora 等竞品的包围中守住 B 端市场份额。

音效与对话生成暗示音视频联合建模路径

内置音效和对话生成功能意味着 Runway 在视频生成之外,正在构建音视频联合生成能力。这并非简单的"后期配音"功能,而更可能是基于视频语义理解的原生生成——AI 根据画面内容和情绪自动生成匹配的音效与环境音,甚至产生符合场景的对话内容。这一能力的实现需要跨模态的语义对齐模型,与 OpenAI 的 Sora+GPT-4o 音频整合路线高度相似。如果 Seedance 2.0 确实实现了原生音视频联合生成,这将标志着视频生成进入"视听一体"的下一阶段,而非停留在纯视觉层面。

值得关注

信源行:@runwayml 官方推文
背景报道:Runway 于 2024 年发布初代 Seedance,并持续在 Gen-3 Alpha 视频生成模型上迭代多模态能力;同期 OpenAI 公布 Sora 与 GPT-4o 的音视频整合路线,Google Veo 2 也在探索多模态视频生成赛道,TechCrunchVentureBeat 对视频生成赛道有多次追踪报道。

```
本解读由 AI 自动生成,仅供参考。请以原文为准。