← 返回资讯
产品发布 @Google 2026-06-09

Gemini 3.5 Live Translate 支持实时语音翻译

Google 推出 Gemini 3.5 Live Translate API,开发者可构建近实时语音翻译体验,涵盖多语言通话、会议、课程、直播等场景的同声传译。

查看原文
TL;DR · 产品解读

Google 将 Gemini 3.5 的端到端语音翻译能力封装为 Live Translate API,开发者可直接调用构建近实时同声传译应用。相比 Whisper+文本翻译拼接方案,延迟更低且保留原声特征,适合通话、会议等多语言实时交互场景。

深度解读

产品是什么

Gemini 3.5 Live Translate API 是 Google 将 Gemini 多模态模型的语音翻译能力封装为开发者可调用的接口。与传统「语音识别→文本翻译→语音合成」的拼接方案不同,Gemini 3.5 实现端到端的语音到语音翻译,减少中间环节的延迟损失,同时保留说话人的音色、语调等声学特征。

API 支持多语言对之间的近实时翻译,覆盖通话、会议、在线课程、直播带货等需要低延迟的场景。开发者可通过 WebSocket 或 gRPC 建立长连接,实现流式翻译输出。

解决什么问题

此前的语音翻译方案存在两个痛点:一是延迟高(ASR→MT→TTS 三步走,累积延迟通常在 2-4 秒);二是声学信息丢失(TTS 重建的语音缺乏原声特征,影响交流体验)。Live Translate API 通过单模型端到端处理和流式输出,将延迟压缩到接近同声传译水平。

目标用户

主要面向需要构建实时多语言交互功能的开发者/厂商,典型场景包括:跨国视频会议平台(如 Zoom、腾讯会议)、在线教育平台的多语言课程、跨境直播电商、远程医疗问诊、以及硬件设备厂商(如耳机、助听器)的语音翻译功能集成。

对比同类竞品

参考来源
  1. Gemini 3.5 Live Translate 支持实时语音翻译 · 2026-06-09
  2. Google Cloud Translation API 文档 · 2026-01-01
  3. Microsoft Azure AI Translator 语音翻译 · 2026-01-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。