Gemini 3.5 Live Translate 支持实时语音翻译
Google 推出 Gemini 3.5 Live Translate API,开发者可构建近实时语音翻译体验,涵盖多语言通话、会议、课程、直播等场景的同声传译。
查看原文Google 将 Gemini 3.5 的端到端语音翻译能力封装为 Live Translate API,开发者可直接调用构建近实时同声传译应用。相比 Whisper+文本翻译拼接方案,延迟更低且保留原声特征,适合通话、会议等多语言实时交互场景。
产品是什么
Gemini 3.5 Live Translate API 是 Google 将 Gemini 多模态模型的语音翻译能力封装为开发者可调用的接口。与传统「语音识别→文本翻译→语音合成」的拼接方案不同,Gemini 3.5 实现端到端的语音到语音翻译,减少中间环节的延迟损失,同时保留说话人的音色、语调等声学特征。
API 支持多语言对之间的近实时翻译,覆盖通话、会议、在线课程、直播带货等需要低延迟的场景。开发者可通过 WebSocket 或 gRPC 建立长连接,实现流式翻译输出。
解决什么问题
此前的语音翻译方案存在两个痛点:一是延迟高(ASR→MT→TTS 三步走,累积延迟通常在 2-4 秒);二是声学信息丢失(TTS 重建的语音缺乏原声特征,影响交流体验)。Live Translate API 通过单模型端到端处理和流式输出,将延迟压缩到接近同声传译水平。
目标用户
主要面向需要构建实时多语言交互功能的开发者/厂商,典型场景包括:跨国视频会议平台(如 Zoom、腾讯会议)、在线教育平台的多语言课程、跨境直播电商、远程医疗问诊、以及硬件设备厂商(如耳机、助听器)的语音翻译功能集成。
对比同类竞品
- Google Cloud Tr
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Gemini 3.5 Live Translate 支持实时语音翻译 · 2026-06-09
- Google Cloud Translation API 文档 · 2026-01-01
- Microsoft Azure AI Translator 语音翻译 · 2026-01-01