大模型 @sama 2026-05-07

用户开始大量用语音和 AI 交互，GPT-Realtime-2 是大幅升级

Sam Altman 称用户在需要倾倒大量上下文时已习惯用语音与 AI 互动，GPT-Realtime-2 在 API 上线是相当大的一步，ChatGPT 内的语音体验也在改进中。

TL;DR · 产品解读

OpenAI 发布 GPT-Realtime-2 API，将语音交互质量提升到新水平，延迟更低、功能更强。语音 AI 正从玩具向生产力工具转变。

深度解读

产品是什么

GPT-Realtime-2 是 OpenAI 推出的新一代实时语音交互 API。前代 Realtime API 于 2024 年 10 月上线，支持低延迟语音对话；这次升级在延迟、多模态上下文注入、以及 ChatGPT 内置语音体验上都有实质提升。用户现在可以在对话中通过语音高效地"倾倒"大量上下文信息，Altman 确认这一使用模式正在成为主流。

解决什么问题

传统语音 AI 流程需要经过 ASR（语音识别）→ LLM（语言模型）→ TTS（语音合成）三跳，延迟高、误差累积。Realtime-2 将这一流程压缩，让语音信号直接进入多模态模型，减少中间环节损耗。核心价值是降低用户"倾倒信息"的门槛——当需要输入大量上下文时，语音比打字更快、更自然。

对比同类竞品

Google Gemini API Voice Mode：同样主打端到端语音交互，支持实时打断和情感表达，但在 OpenAI 生态的集成深度上不如 Realtime-2。Gemini 的多模态推理（图片+语音+视频同处理）能力是差异化优势。
Anthropic Claude with Voice：以推理质量见长，语音功能相对基础，更适合对回

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Sam Altman：用户开始大量用语音和 AI 交互，GPT-Realtime-2 是大幅升级 · 2026-05-07
OpenAI Realtime API Documentation · 2024-10-01

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。