Google DeepMind 推出 Gemini 3.5 Live Translate 音频模型
专为快速跨语言交流设计,支持多语言实时互译,标志着 Google 在实时翻译领域的又一次突破。
查看原文Google DeepMind 发布 Gemini 3.5 Live Translate 音频模型,专攻实时语音翻译场景。若属实,将对 Otter.ai、DeepL Write 等竞品形成降维打击——Google 的语音数据和翻译积累非初创能比。建议跨境业务用户优先关注定价策略。
产品是什么
Gemini 3.5 Live Translate 是 Google DeepMind 基于 Gemini 3.5 架构开发的音频实时翻译模型,专门针对「说话—翻译—输出」链路优化。从命名看,Live Translate 不是新功能,而是一个独立推理管道:在 Whisper 级别语音识别之后,直接调用 Gemini 的多语言理解能力做语义级翻译,再通过 TTS 输出目标语言。
这类模型的本质是端到端语音翻译(Speech-to-Speech Translation),绕过「语音→文本→翻译→语音」的多跳延迟。当前竞品多为后两段能力强,但第一跳(语音识别)和整体延迟仍是痛点。
解决什么问题
解决「实时跨语言沟通」的低延迟需求。具体场景包括:跨国会议、跨境医疗问诊、外语教学实时辅助、旅行口语翻译等。核心价值是延迟低、语种覆盖广、自然度高——这是三个维度。
Gemini 3.5 的多模态能力理论上可以结合上下文语境(比如会议议程、用户画像),做「选择性翻译」——不逐字翻,而是提取意图。这比纯工具型翻译更接近「翻译助手」而非「词典」。
相比之前版本/竞品的变化
若定位为独立音频模型而非 Gem
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Google DeepMind 推出 Gemini 3.5 Live Translate 音频模型 · 2026-06-09
- Google Gemini API Documentation · 2025-01-15
- Otter.ai 官网 · 2025-01-15