OpenAI:Realtime API 上线三款新语音模型
GPT-Realtime-2 可构建生产级语音 Agent;Translate 版支持 70+ 输入语言、13 输出语言流式翻译;Whisper 版用于实时音频转写。
查看原文OpenAI Realtime API 补齐三款专用语音模型,覆盖流式翻译、实时转写、语音 Agent 三大场景,形成完整语音处理流水线。但 GPT-Realtime-2 目前仅输出文本而非原生音频,限制了端到端语音交互的应用深度。
产品具体是什么
OpenAI 此次发布的三款模型并非单一产品,而是 Realtime API 能力矩阵的三个专业化组件:
- GPT-Realtime-2:主打「生产级语音 Agent」定位,定位为对话式 AI 的推理大脑,负责文本理解和生成。
- Translate 版:专注于低延迟流式翻译,支持 70+ 种语言输入、13 种语言输出,目标是取代传统翻译 API 的批处理模式。
- Whisper 版:将 Whisper 的 ASR 能力集成进 Realtime 管道,解决「听见」环节。
三者的组合逻辑清晰:Whisper 负责「听」,Translate 负责「译」,GPT-Realtime-2 负责「想」,共同构成从音频输入到文本输出的完整闭环。
解决什么问题
此前开发者要用语音能力,需要自拼管线:语音识别调用 Whisper API → 翻译找第三方或自己实现 → 对话走 ChatGPT API → 再接 TTS 回到语音。Realtime API 此前已提供部分能力,但模型层面的专业化分工意味着更低的延迟和更精准的场景适配。
Translate 版
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- OpenAI 官方推文 · 2026-05-07
- OpenAI Realtime API 文档 · 2026-05-07
- Whisper 模型技术报告 · 2023-09-01