← 返回资讯
产品发布 @OpenAI 2026-05-07

OpenAI:发布 GPT-Realtime-2,把 GPT-5 级推理带进语音 Agent

OpenAI 在 API 推出最新语音模型 GPT-Realtime-2,主打 GPT-5 级推理与实时协作;同时上线流式翻译模型 GPT-Realtime-Translate 与转写模型 GPT-Realtime-Whisper。

查看原文
TL;DR · 产品解读

OpenAI 在 API 侧发布三款实时语音类产品:GPT-Realtime-2 主打「GPT-5 级」推理嵌入语音 Agent,另有翻译与转写模型。定价与上线时间尚未公布,但意图明显——在语音赛道正面挑战 Twilio、ElevenLabs 和 LiveKit。

深度解读

产品是什么

GPT-Realtime-2 是 OpenAI 将大语言模型推理能力直接嵌入语音交互链路的尝试。它的核心卖点是把原本需要「语音→文字→LLM→语音」四步走的pipeline,压缩为端到端实时推理——模型在接收音频流的同时完成语义理解和生成响应,理论上可以显著降低延迟并减少信息损耗。

同期发布的两款辅助模型各有分工:GPT-Realtime-Translate 定位流式翻译,据称支持多语种实时互译;GPT-Realtime-Whisper 则是一款基于 Whisper 改进的转写模型,OpenAI 声称其在低信噪比环境下的 WER(词错误率)有所优化。

解决什么问题

当前语音 Agent 的主流瓶颈在于延迟上下文连贯性。多数产品依赖转录→LLM→合成的串联链路,端到端延迟往往在 1.5-3 秒之间,用户体验接近「对讲机」而非「对话」。GPT-Realtime-2 的端到端架构若属实,可以在单模型内完成意图识别→推理→话术生成,有望将延迟压至 500ms 以下。

另一个痛点是复杂推理在语音场景中的落地。现有方案中,用户要求模型做多步骤推理(如行程规划+比价+风险提示),文字模型表现良好,但语音链路会因为中间结果无法顺畅表达而断裂。G

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. OpenAI 官方推文 · 2026-05-07
  2. OpenAI Realtime API 官方文档 · 2025-01-01
  3. LiveKit 实时语音架构白皮书 · 2025-03-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。