Gemini 3.5 新增实时同声传译功能,演讲中持续翻译并生成自然语音、无明显停顿。本月向企业用户私人预览,后续全面推广。同声传译因低延迟+高流畅的双重要求,向来是AI翻译最难攻克的场景之一,若真实现无停顿体验,将对专业翻译市场和会议协作工具产生直接冲击。
产品是什么
Gemini 3.5 的同声传译(Simultaneous Interpretation)功能,核心能力是:在用户演讲过程中实时接收语音输入,持续翻译为目标语言,并生成流畅自然的语音输出。整个过程无明显停顿感(no perceptible lag),目标是接近专业译员的体验。
从技术层面推断,该功能应该基于 Gemini 3.5 的流式推理能力(streaming inference)+ 端到端语音生成模型的组合,而非传统“语音识别→机器翻译→语音合成”的串联管道。这种架构能大幅降低延迟。
解决什么问题
同声传译是跨语言会议、国际活动、多语种协作中的刚需。传统方案依赖专业人工译员,成本高(单场会议译员费用可达数千至数万元)、资源稀缺、调度困难。现有AI翻译工具(如 Google Meet 自带翻译、Microsoft Translator)多为交替传译(说完一句再翻),延迟明显,无法满足真正同传场景的需求。
Gemini 3.5 试图填补的正是这个空白:让AI在演讲进行中同步输出翻译语音,用户几乎感受不到延迟。
对比同类竞品
- Google Meet 实时翻译:目前支持40+语言字幕翻译,但为字
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Gemini 3.5实现同声传译功能 · 2026-06-09
- Google Gemini 官方产品页 · 2026-06-01
- Kudo AI Interpretation Platform · 2026-01-01