产品发布 @GoogleDeepMind 2026-04-15

Google DeepMind：Gemini 3.1 Flash TTS 发布，用 Audio Tags 控风格

Gemini 3.1 Flash TTS 是目前最可控的文生语音模型，通过新的 Audio Tags，用户可直接用文本指令调节语音风格、情绪与节奏。

AI 资讯解读

核心要点

2026 年 4 月 15 日，Google DeepMind 正式发布 Gemini 3.1 Flash TTS，这是一款以「Audio Tags」机制为核心的文本转语音模型。用户可通过自然语言文本指令（如"悲伤地朗读""加快语速带兴奋感"）实时调控语音风格、情绪与节奏，无需依赖外部参数配置或预设音色库，标志着 TTS 模型在可操控性维度上实现质的飞跃，也预示着语音交互从「固定音色输出」向「指令驱动表达」的范式迁移。

原文 + 中文翻译

原文：Gemini 3.1 Flash TTS is our most controllable text-to-speech model yet. With new Audio Tags, you can now guide style, emotion, and rhythm directly through text instructions.

翻译：Gemini 3.1 Flash TTS 是我们目前最可控的文本转语音模型。通过全新的 Audio Tags，您可以仅凭文本指令直接引导语音的风格、情绪与节奏。

深度解读

技术突破：从参数调节到语言指令的跨越

Audio Tags 的核心创新在于将「语音表达控制」从传统的滑块式参数面板（pitch/Rate/energy）转变为自然语言指令层。过去无论是 Google Cloud TTS 还是竞品方案，用户若要实现「带有悲伤感的缓慢叙述」，往往需要手动调节多个离散参数，反复试听迭代，成本极高。而 Gemini 3.1 Flash TTS 引入的 Audio Tags 机制，本质上是让模型理解「元指令」——即用户对语音表现方式的描述本身成为一种控制信号。这背后依赖的是 Gemini 系列在多模态语义理解上的积累，以及一个专门训练的音频风格解码器，能够将文本中的情绪/风格语义映射到声学特征（F0 轮廓、语速、音量包络）。此举将 TTS 系统的可用性门槛大幅降低，非专业用户也能通过简单的文字描述获得期望的语音输出。

行业影响：TTS 竞争进入「表现力可控」新阶段

过去两三年，TTS 领域的竞争焦点主要围绕「自然度」和「低延迟」——ElevenLabs、OpenAI（ChatGPT Voice）、微软 Azure Neural TTS 相继在这一维度取得显著进展。但当「听得像真人」成为 baseline，各厂商的差异化重心开始转移。Gemini 3.1 Flash TTS 以 Audio Tags 为支点，率先将「表达可控性」作为核心卖点，直接剑指以下应用场景：情感陪伴 AI（如心理支持机器人）、有声内容创作（播客/有声书的多风格演绎）、游戏 NPC 对话（同一角色可呈现多种情绪状态）、多语言本地化的情感适配。这意味着 TTS 竞争已从「声学质量比拼」延伸到「创意表达能力」的维度，谁能在语义指令到声学表现的映射上做得更细、更准，谁就更有机会切入内容生产工作流而非仅做底层语音能力供应商。

商业策略：Flash 版本的定位与生态整合意图

选择以「Flash」命名这款 TTS 产品并非偶然——Google 已在 Gemini 系列中确立了 Flash = 高性价比、快速响应的定位。此番将 Flash 标签延伸至语音模型，意图明确：将 TTS 能力打包进 Gemini API 生态，使开发者可以在同一个 API 体系内完成「文本生成 → 语音合成」的全链路，无需引入第三方语音服务（如 ElevenLabs API）。考虑到 Google 在 Google Workspace、Android、YouTube 等自有产品矩阵中的深度整合空间，Gemini 3.1 Flash TTS 的首要目标可能并非直接向消费者收费，而是作为 Gemini 生态的黏性组件——当开发者在 Gemini 平台上习惯了从 LLM 到 TTS 的一站式体验，迁移成本将显著提高。同时，免费或低价的 Flash 版本也可能对 ElevenLabs 等独立 TTS SaaS 形成价格压力，迫使其在音色库丰富度或情感精度上寻找新的护城河。

值得关注

API 定价与调用限制：Google 尚未公布 Gemini 3.1 Flash TTS 的具体计费模式。需关注其 token 计费方式与 ElevenLabs（按字符收费）的价格差异——若定价显著低于市场，将快速抢占语音 API 市场份额。
Audio Tags 指令的语义边界：首批开发者测试反馈将揭示 Audio Tags 在复杂情感组合（"略带讽刺的温和批评"）或多轮对话中的一致性表现。这是与竞品拉开体验差距的关键。
与 Gemini 3.1 LLM 的整合深度：Gemini 3.1 Flash TTS 是否已原生集成到 Gemini API 中，允许开发者在单次 API 调用中指定「由 LLM 生成内容再转为语音」？这将决定它在 AI Agent 工作流中的嵌入深度。
多语言情感适配能力：Audio Tags 的语义映射是否跨语言有效？中文「慷慨激昂」与英文"Enthusiastic"的声学映射质量是否一致？这将决定其在全球化内容生产场景中的适用性。
竞品回应时间窗口：ElevenLabs 和微软 Azure 的回应值得关注——预计在 3-6 个月内，竞品可能推出类似「emotion tags」或「style prompts」功能，届时可对比指令到声学表现的映射精度。

信源行：@GoogleDeepMind 原文链接
背景报道：Google I/O 2025 期间已展示 Gemini 多模态语音能力的部分 Demo；ElevenLabs 于 2025 年 Q4 推出「Voice Design API」强化风格控制；微软 Azure Neural TTS 在 2026 年初更新了「自适应情感」功能。

本解读由 AI 自动生成，仅供参考。请以原文为准。