← 返回资讯
产品发布 @OpenAI 2026-04-23

OpenAI:GPT-5.5 每 token 延迟追平 5.4,Codex 任务更省 token

OpenAI 表示 GPT-5.5 在真实部署中保持与 GPT-5.4 相同的 per-token 延迟,但在几乎所有评测中表现更好,并在 Codex 任务中使用明显更少的 token。

查看原文
AI 资讯解读

核心要点

2026 年 4 月 23 日,OpenAI 发布 GPT-5.5。该模型在真实部署场景中实现了与前代 GPT-5.4 完全相同的 per-token 延迟水平,但评测表现几乎全面提升,尤其在 Codex 编程任务中展现出显著更低的 token 消耗。这一消息表明 OpenAI 在保持推理延迟不增加的前提下,成功实现了模型能力的持续迭代,也暗示该公司在 MoE(Mixture of Experts)架构或推理优化方面取得了实质性突破。

原文 + 中文翻译

原文:"GPT-5.5 maintains the same per-token latency as GPT-5.4 in real-world deployments, while performing better on almost all benchmarks—and using significantly fewer tokens on Codex tasks."

翻译:"GPT-5.5 在真实部署中保持了与 GPT-5.4 相同的每 token 延迟,同时在几乎所有基准测试中表现更优——并且在 Codex 任务中使用明显更少的 token。"

深度解读

延迟不增,性能提升:MoE 架构成熟度的标志

这条发布的核心意义在于「延迟持平」这一点。在大语言模型的商业落地中,推理延迟直接决定了用户体验和应用场景的可行性。OpenAI 能够在保持延迟不变的前提下实现性能提升,通常意味着两种技术路径:其一,通过模型蒸馏或剪枝压缩参数规模,但保留核心能力;其二,MoE 架构的活性专家(active experts)比例得到优化,在不增加计算量的前提下提升模型表现。结合 GPT-5 系列一贯的演进节奏,GPT-5.5 更可能是在 MoE 架构上进行了活性专家的精细化调整,使得每次推理调用的参数利用率更高。

Codex 任务 token 节约:编程 Agent 的关键改进

Codex 是 OpenAI 面向编程任务的模型系列,也是其企业级 API 收入的重要来源。GPT-5.5 在 Codex 任务中「使用明显更少的 token」这一特性,对商业用户意义重大。编程场景的特点是长上下文、多轮交互——token 消耗直接关联 API 成本。如果同等任务输出质量下 token 消耗下降 20-30%,用户的 API 成本将显著降低,这会增强 GPT-5.5 在价格敏感型开发者群体中的竞争力,也可能倒逼 Anthropic(Claude for Code)和 Google(GeminCode)跟进优化。

与 GPT-5.4 的迭代策略:从「更大」到「更聪明」

GPT-5.5 的发布节奏表明 OpenAI 的迭代重心正在从「增大模型规模」转向「提升推理效率」。在 GPT-4 时代,OpenAI 经常通过增加参数规模来提升性能,但代价是延迟上升和成本增加。如今 GPT-5.5 与 GPT-5.4 延迟持平,意味着 OpenAI 在寻找新的 scaling 路径:通过架构优化、推理时计算分配(test-time compute)等方式,而非单纯增加模型规模来提升能力。这与 Anthropic 强调的「模型能力密度(capability density)」概念异曲同工。

值得关注

信源行
原文链接:https://x.com/OpenAI/status/2047376564309115134
背景报道:The Verge - OpenAI releases GPT-5.5 with improved efficiencyArs Technica - OpenAI pushes for efficiency gains in latest GPT-5 iteration

本解读由 AI 自动生成,仅供参考。请以原文为准。