大模型 @Google 2026-06-09

Gemini 3.5 Live Translate 支持实时语音翻译

Google 推出 Gemini 3.5 Live Translate API，开发者可构建近实时语音翻译体验，涵盖多语言通话、会议、课程、直播等场景的同声传译。

TL;DR · 产品解读

Google 将 Gemini 3.5 的端到端语音翻译能力封装为 Live Translate API，开发者可直接调用构建近实时同声传译应用。相比 Whisper+文本翻译拼接方案，延迟更低且保留原声特征，适合通话、会议等多语言实时交互场景。

深度解读

产品是什么

Gemini 3.5 Live Translate API 是 Google 将 Gemini 多模态模型的语音翻译能力封装为开发者可调用的接口。与传统「语音识别→文本翻译→语音合成」的拼接方案不同，Gemini 3.5 实现端到端的语音到语音翻译，减少中间环节的延迟损失，同时保留说话人的音色、语调等声学特征。

API 支持多语言对之间的近实时翻译，覆盖通话、会议、在线课程、直播带货等需要低延迟的场景。开发者可通过 WebSocket 或 gRPC 建立长连接，实现流式翻译输出。

解决什么问题

此前的语音翻译方案存在两个痛点：一是延迟高（ASR→MT→TTS 三步走，累积延迟通常在 2-4 秒）；二是声学信息丢失（TTS 重建的语音缺乏原声特征，影响交流体验）。Live Translate API 通过单模型端到端处理和流式输出，将延迟压缩到接近同声传译水平。

目标用户

主要面向需要构建实时多语言交互功能的开发者/厂商，典型场景包括：跨国视频会议平台（如 Zoom、腾讯会议）、在线教育平台的多语言课程、跨境直播电商、远程医疗问诊、以及硬件设备厂商（如耳机、助听器）的语音翻译功能集成。

对比同类竞品

Google Cloud Tr

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Gemini 3.5 Live Translate 支持实时语音翻译 · 2026-06-09

Google Cloud Translation API 文档 · 2026-01-01

Microsoft Azure AI Translator 语音翻译 · 2026-01-01

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。

📑 延伸阅读 · 深度研报

热点解读 · 2026.07.31 Pro

GLM Coding Plan 相比直接买 API 到底省多少？｜订阅制 vs 按量 API 成本解读

热点解读 · 2026.07.31 Pro

当 Claude 在评测里"越狱"｜Anthropic 网络安全测试三起真实事故解读

深度研报 · 2026.07.28 Pro

X Money 深度研报｜马斯克把 X 变成"美国版微信"的支付棋局

想读得更深？AI Insight Pro 解锁全部深度研报与资讯完整解读。
了解 Pro →

← 上一条 · 大模型 Fable 5 被称史上最大模型能量大模型 · 下一条 → Ollama 联合 Hermes Desktop 推出桌面智能体

© 2026 AI Insight · 本网站由 AI 采集信息生成，可能有误