Google DeepMind:Gemini 3.1 Flash TTS 发布,用 Audio Tags 控风格
Gemini 3.1 Flash TTS 是目前最可控的文生语音模型,通过新的 Audio Tags,用户可直接用文本指令调节语音风格、情绪与节奏。
查看原文核心要点
2026 年 4 月 15 日,Google DeepMind 正式发布 Gemini 3.1 Flash TTS,这是一款以「Audio Tags」机制为核心的文本转语音模型。用户可通过自然语言文本指令(如"悲伤地朗读""加快语速带兴奋感")实时调控语音风格、情绪与节奏,无需依赖外部参数配置或预设音色库,标志着 TTS 模型在可操控性维度上实现质的飞跃,也预示着语音交互从「固定音色输出」向「指令驱动表达」的范式迁移。
原文 + 中文翻译
原文:Gemini 3.1 Flash TTS is our most controllable text-to-speech model yet. With new Audio Tags, you can now guide style, emotion, and rhythm directly through text instructions.
翻译:Gemini 3.1 Flash TTS 是我们目前最可控的文本转语音模型。通过全新的 Audio Tags,您可以仅凭文本指令直接引导语音的风格、情绪与节奏。
深度解读
技术突破:从参数调节到语言指令的跨越
Audio Tags 的核心创新在于将「语音表达控制」从传统的滑块式参数面板(pitch/Rate/energy)转变为自然语言指令层。过去无论是 Google Cloud TTS 还是竞品方案,用户若要实现「带有悲伤感的缓慢叙述」,往往需要手动调节多个离散参数,反复试听迭代,成本极高。而 Gemini 3.1 Flash TTS 引入的 Audio Tags 机制,本质上是让模型理解「元指令」——即用户对语音表现方式的描述本身成为一种控制信号。这背后依赖的是 Gemini 系列在多模态语义理解上的积累,以及一个专门训练的音频风格解码器,能够将文本中的情绪/风格语义映射到声学特征(F0 轮廓、语速、音量包络)。此举将 TTS 系统的可用性门槛大幅降低,非专业用户也能通过简单的文字描述获得期望的语音输出。
行业影响:TTS 竞争进入「表现力可控」新阶段
过去两三年,TTS 领域的竞争焦点主要围绕「自然度」和「低延迟」——ElevenLabs、OpenAI(ChatGPT Voice)、微软 Azure Neural TTS 相继在这一维度取得显著进展。但当「听得像真人」成为 baseline,各厂商的差异化重心开始转移。Gemini 3.1 Flash TTS 以 Audio Tags 为支点,率先将「表达可控性」作为核心卖点,直接剑指以下应用场景:情感陪伴 AI(如心理支持机器人)、有声内容创作(播客/有声书的多风格演绎)、游戏 NPC 对话(同一角色可呈现多种情绪状态)、多语言本地化的情感适配。这意味着 TTS 竞争已从「声学质量比拼」延伸到「创意表达能力」的维度,谁能在语义指令到声学表现的映射上做得更细、更准,谁就更有机会切入内容生产工作流而非仅做底层语音能力供应商。
商业策略:Flash 版本的定位与生态整合意图
选择以「Flash」命名这款 TTS 产品并非偶然——Google 已在 Gemini 系列中确立了 Flash = 高性价比、快速响应的定位。此番将 Flash 标签延伸至语音模型,意图明确:将 TTS 能力打包进 Gemini API 生态,使开发者可以在同一个 API 体系内完成「文本生成 → 语音合成」的全链路,无需引入第三方语音服务(如 ElevenLabs API)。考虑到 Google 在 Google Workspace、Android、YouTube 等自有产品矩阵中的深度整合空间,Gemini 3.1 Flash TTS 的首要目标可能并非直接向消费者收费,而是作为 Gemini 生态的黏性组件——当开发者在 Gemini 平台上习惯了从 LLM 到 TTS 的一站式体验,迁移成本将显著提高。同时,免费或低价的 Flash 版本也可能对 ElevenLabs 等独立 TTS SaaS 形成价格压力,迫使其在音色库丰富度或情感精度上寻找新的护城河。
值得关注
- API 定价与调用限制:Google 尚未公布 Gemini 3.1 Flash TTS 的具体计费模式。需关注其 token 计费方式与 ElevenLabs(按字符收费)的价格差异——若定价显著低于市场,将快速抢占语音 API 市场份额。
- Audio Tags 指令的语义边界:首批开发者测试反馈将揭示 Audio Tags 在复杂情感组合("略带讽刺的温和批评")或多轮对话中的一致性表现。这是与竞品拉开体验差距的关键。
- 与 Gemini 3.1 LLM 的整合深度:Gemini 3.1 Flash TTS 是否已原生集成到 Gemini API 中,允许开发者在单次 API 调用中指定「由 LLM 生成内容再转为语音」?这将决定它在 AI Agent 工作流中的嵌入深度。
- 多语言情感适配能力:Audio Tags 的语义映射是否跨语言有效?中文「慷慨激昂」与英文"Enthusiastic"的声学映射质量是否一致?这将决定其在全球化内容生产场景中的适用性。
- 竞品回应时间窗口:ElevenLabs 和微软 Azure 的回应值得关注——预计在 3-6 个月内,竞品可能推出类似「emotion tags」或「style prompts」功能,届时可对比指令到声学表现的映射精度。
信源行:@GoogleDeepMind 原文链接
背景报道:Google I/O 2025 期间已展示 Gemini 多模态语音能力的部分 Demo;ElevenLabs 于 2025 年 Q4 推出「Voice Design API」强化风格控制;微软 Azure Neural TTS 在 2026 年初更新了「自适应情感」功能。