← 返回资讯
大模型 @Google 2026-04-15

Google:Gemini 3.1 Flash TTS 支持 70+ 种语言

Gemini 3.1 Flash TTS 可跨 70 多种语言生成细腻、富有表现力的语音,是 Google 目前最可控、最具表达力的文生语音模型。

查看原文
AI 资讯解读

核心要点

2026年4月15日,Google通过官方X账号宣布Gemini 3.1 Flash TTS正式上线,该模型可在70多种语言之间实现细腻、富有表现力的语音合成。Google将其定位为"目前最可控、最具表达力"的文生语音模型,标志着Google在端侧可部署TTS能力上的一次重大跨越。此次发布与Gemini 3.1 Flash模型家族形成协同,Flash后缀暗示其具备良好的推理效率,适合集成到移动端、消费电子及企业工作流中。

原文 + 中文翻译

原文: "Gemini 3.1 Flash TTS can generate nuanced, expressive speech across 70+ languages — Google's most controllable and expressive text-to-speech model yet. 🗣️"

翻译: "Gemini 3.1 Flash TTS 能在 70 多种语言中生成细腻、富有表现力的语音——这是 Google 目前最可控、最具表达力的文生语音模型。🗣️"

深度解读

一、TTS多语言能力的战略意义

Gemini 3.1 Flash TTS的70+语言覆盖在当前业界已属领先梯队。对比来看,OpenAI的TTS API在2024年约支持20种语言,ElevenLabs的旗舰模型覆盖约30种语言。Google依托其强大的多语言语音数据积累(YouTube字幕、Google Assistant多语言语料),在语言覆盖广度上具有结构性优势。更重要的是,"富有表现力"这一描述暗示该模型不只是做文字到音素的机械映射,而是能捕捉语调、情感色彩和韵律特征,这对多语言内容创作、多语言客服、多语言电子书朗读等场景至关重要。

二、Flash后缀的战略意图:走向端侧与消费级部署

Google选择"Flash"命名并非偶然——这与Gemini 3.1 Flash大语言模型的定位一脉相承,即在保持高质量输出的同时优化推理成本和延迟。在TTS领域,"Flash"意味着可以在移动设备上实时合成语音,不必依赖云端API调用。这意味着Google正在与Soniox、Resemble AI、Azure TTS等厂商在"边缘TTS"赛道上直接竞争。对于Google来说,TTS能力是其语音助手生态(如Google Assistant、Android系统语音)的底层基础设施,向第三方开放70+语言TTS API将进一步扩大其开发者生态的粘性。

三、对竞争格局的潜在冲击

当前TTS市场呈现分层格局:高端商业配音被ElevenLabs主导,企业级多语言客服市场被Azure和AWS Polly占据,中文垂类市场有出门问问、科大讯飞等本土玩家。Gemini 3.1 Flash TTS的入场将形成"Google全家桶"效应——已在使用Gemini API的开发者可以以极低的迁移成本获得TTS能力,这种平台整合优势是单一TTS厂商难以抗衡的。尤其是70+语言的多语言一致性输出(同一音色可在不同语言间迁移),将极大简化多语言产品的配音管线。

值得关注

信源行:
原文链接:https://x.com/Google/status/2044447426266763514
背景报道:Google在2024年I/O大会曾预览多语言语音合成能力,结合Gemini 3.0系列在多模态上的进展,此次Flash TTS落地是必然延伸;可参考TechCrunch同期报道"Google's TTS race heats up"及VentureBeat对多语言AI语音市场的分析文章。

本解读由 AI 自动生成,仅供参考。请以原文为准。