大模型 @GoogleDeepMind 2026-06-09

Google DeepMind 推出 Gemini 3.5 Live Translate 音频模型

专为快速跨语言交流设计，支持多语言实时互译，标志着 Google 在实时翻译领域的又一次突破。

TL;DR · 产品解读

Google DeepMind 发布 Gemini 3.5 Live Translate 音频模型，专攻实时语音翻译场景。若属实，将对 Otter.ai、DeepL Write 等竞品形成降维打击——Google 的语音数据和翻译积累非初创能比。建议跨境业务用户优先关注定价策略。

深度解读

产品是什么

Gemini 3.5 Live Translate 是 Google DeepMind 基于 Gemini 3.5 架构开发的音频实时翻译模型，专门针对「说话—翻译—输出」链路优化。从命名看，Live Translate 不是新功能，而是一个独立推理管道：在 Whisper 级别语音识别之后，直接调用 Gemini 的多语言理解能力做语义级翻译，再通过 TTS 输出目标语言。

这类模型的本质是端到端语音翻译（Speech-to-Speech Translation），绕过「语音→文本→翻译→语音」的多跳延迟。当前竞品多为后两段能力强，但第一跳（语音识别）和整体延迟仍是痛点。

解决什么问题

解决「实时跨语言沟通」的低延迟需求。具体场景包括：跨国会议、跨境医疗问诊、外语教学实时辅助、旅行口语翻译等。核心价值是延迟低、语种覆盖广、自然度高——这是三个维度。

Gemini 3.5 的多模态能力理论上可以结合上下文语境（比如会议议程、用户画像），做「选择性翻译」——不逐字翻，而是提取意图。这比纯工具型翻译更接近「翻译助手」而非「词典」。

相比之前版本/竞品的变化

若定位为独立音频模型而非 Gem

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Google DeepMind 推出 Gemini 3.5 Live Translate 音频模型 · 2026-06-09
Google Gemini API Documentation · 2025-01-15
Otter.ai 官网 · 2025-01-15

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。