← 返回资讯
产品发布 @GoogleDeepMind 2026-06-09

Google DeepMind 推出 Gemini 3.5 Live Translate 音频模型

专为快速跨语言交流设计,支持多语言实时互译,标志着 Google 在实时翻译领域的又一次突破。

查看原文
TL;DR · 产品解读

Google DeepMind 发布 Gemini 3.5 Live Translate 音频模型,专攻实时语音翻译场景。若属实,将对 Otter.ai、DeepL Write 等竞品形成降维打击——Google 的语音数据和翻译积累非初创能比。建议跨境业务用户优先关注定价策略。

深度解读

产品是什么

Gemini 3.5 Live Translate 是 Google DeepMind 基于 Gemini 3.5 架构开发的音频实时翻译模型,专门针对「说话—翻译—输出」链路优化。从命名看,Live Translate 不是新功能,而是一个独立推理管道:在 Whisper 级别语音识别之后,直接调用 Gemini 的多语言理解能力做语义级翻译,再通过 TTS 输出目标语言。

这类模型的本质是端到端语音翻译(Speech-to-Speech Translation),绕过「语音→文本→翻译→语音」的多跳延迟。当前竞品多为后两段能力强,但第一跳(语音识别)和整体延迟仍是痛点。

解决什么问题

解决「实时跨语言沟通」的低延迟需求。具体场景包括:跨国会议、跨境医疗问诊、外语教学实时辅助、旅行口语翻译等。核心价值是延迟低、语种覆盖广、自然度高——这是三个维度。

Gemini 3.5 的多模态能力理论上可以结合上下文语境(比如会议议程、用户画像),做「选择性翻译」——不逐字翻,而是提取意图。这比纯工具型翻译更接近「翻译助手」而非「词典」。

相比之前版本/竞品的变化

若定位为独立音频模型而非 Gem

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. Google DeepMind 推出 Gemini 3.5 Live Translate 音频模型 · 2026-06-09
  2. Google Gemini API Documentation · 2025-01-15
  3. Otter.ai 官网 · 2025-01-15
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。