产品发布 @nvidia 2026-04-23

NVIDIA：携手 OpenAI，GB200 NVL72 让 GPT-5.5 的 token 成本下降 35 倍

NVIDIA 称 GPT-5.5 基于 GB200 NVL72 训练与部署，相较此前 token 成本降低 35 倍，为多步骤执行密集型任务提供企业级稳态性能，NVIDIA 内部已用 OpenAI Codex Agents 规模化人类创造力。

查看原文

AI 资讯解读

核心要点

2026 年 4 月 23 日，NVIDIA 官方账号 @nvidia 发文，披露了基于 Blackwell 架构 GB200 NVL72 机架级系统的 GPT-5.5 训练与部署成本数据。核心主张是：GPT-5.5 相比此前方案，单 token 推理成本降低 35 倍，系统能够提供"企业级稳态性能"以支撑多步骤执行（multi-step）的密集型任务。NVIDIA 还透露其内部已规模化部署 OpenAI Codex Agents，将其作为"规模化人类创造力"的工具。这是 NVIDIA 在 2026 GTC 之后首次以官方身份量化 Blackwell 系统对前沿模型的能效提升，具有明确的市场信号意义。

原文引用

原文："GPT-5.5, trained and deployed on GB200 NVL72, delivers a 35x reduction in token cost versus prior generation — enabling enterprise-grade steady-state performance for multi-step execution intensive tasks. NVIDIA's own teams are already scaling human creativity with OpenAI Codex Agents at scale."

翻译：GPT-5.5，基于 GB200 NVL72 训练与部署，相较上一代实现了 token 成本降低 35 倍——为企业级稳态性能提供支撑，适用于多步骤执行的密集型任务。NVIDIA 自家团队已在规模化地用 OpenAI Codex Agents 放大人类创造力。

深度解读

1. 为什么"35 倍"这个数字如此关键？

当前大模型推理成本的核心瓶颈在于 GPU 显存带宽与 NVLink 互连带宽的协同效率。GB200 NVL72 将 72 块 Blackwell GPU 通过 NVLink 5.0 全互联，单机架提供 1.4 exaFLOPS 的 BF16 算力，同时显存带宽达到 576 TB/s（相较 H100 NVL36 提升约 3 倍）。对于 GPT-5.5 级别（据估计参数量在 1-2 万亿区间）的密集推理，KV-cache 读写、Attention 计算与自回归解码对带宽极度敏感——NVL72 将所有 GPU 视为单一大型计算节点，彻底消除了跨节点通信的带宽墙，使得批量处理长序列任务时每个 token 的摊销成本大幅下降。35 倍不是一个瞬时峰值，而是一个"稳态"数字，这意味着在持续高负载的企业场景下，硬件利用率得以维持在较高水平。

2. "企业级稳态性能"意味着什么？

NVIDIA 在此处使用"steady-state"一词，刻意与"benchmark 峰值"拉开差距。SOTA 模型在 LLM 推理时常见的性能陷阱是长序列下的 KV-cache 溢出与 decode 阶段的 GPU 利用率骤降。NVL72 的 72 GPU 共享 1.4 TB HBM3e 内存，使得即便是 128K 上下文的 Attention 矩阵也能完整驻留在统一内存中，避免了代价极高的跨节点 KV-cache 迁移。对于需要 Agent 循环（plan → act → observe → plan）的工作流，每一次 Agent 迭代涉及多次模型调用，稳态性能直接决定端到端延迟与用户体验。NVIDIA 暗示 NVL72 使企业能够以可预测的成本运行这类复杂 Agent 工作流，而非在高峰期遭遇性能断崖。

3. NVIDIA 自用 OpenAI Codex Agents 的战略意图

NVIDIA 将 OpenAI Codex Agents 纳入内部工作流，是一个值得关注的信号。Codex 是 GitHub Copilot 的底层模型，专长于代码生成与任务分解，属于典型的 Agent 型应用。NVIDIA 作为芯片公司，内部存在大量芯片设计验证 RTL、编译器优化、CUDA kernel 编写等高价值代码任务。若 NVIDIA 内部已用 Codex Agents 在 NVL72 集群上规模化运行，这意味着：（a）NVL72 对 Agent 密集型多轮推理场景已有成熟的软件栈支持；（b）NVIDIA 正在从"硬件供应商"向"AI 基础设施全栈服务商"延伸，内部用例是最有力的产品验证；（c）OpenAI 与 NVIDIA 的合作深度已进入联合优化阶段，而非简单的 API 调用关系。

值得关注

GPT-5.5 的实际发布时间线：目前 OpenAI 官方产品线最高为 GPT-4o 与 o3，GPT-5.5 是否为内部代号或即将发布的模型？若为 2026 年内的产品规划，NVIDIA 的这条推文可能是一个联合预热。
35 倍成本的基准对比对象：NVIDIA 未明确"prior generation"是指 H100、H200 还是 L40S。基准不同，35 倍的含金量差异极大。若对标 H100 NVL36，3 倍带宽提升理论上对应 2-3 倍成本改善，35 倍则暗示存在算法层面的联合优化（如 Continuous Batching、Speculative Decoding 与 NVLink 5.0 的协同）。
GB200 NVL72 的出货量与客户名单：微软 Azure、AWS、Google Cloud 均已宣布部署 GB200 NVL72，但大规模商业交付时间预计在 2026 Q3-Q4。NVIDIA 内部已用，不代表外部客户也已跑通同等效果。
OpenAI 与 NVIDIA 的合作边界：是否会进一步延伸至 NVIDIA NIM（NVIDIA Inference Microservices）平台上的模型优化？若 GPT-5.5 的 token 成本压缩主要来自 NVLink 5.0 硬件特性，则其他云厂商通过自有硬件难以复制，NVIDIA 的生态锁定效应将进一步强化。
竞争对手的应对策略：AMD MI350X 与 Intel Gaudi 3 在多 GPU 互连带宽上的差距仍然显著（MI350X 的 Infinity Fabric 带宽约为 NVLink 5.0 的 40%），若 35 倍数据属实，将给 AMD 和 Intel 的高端推理市场带来极大压力。

信源行：
原文链接：https://x.com/nvidia/status/2047414012934082751
背景报道：NVIDIA 官方 Blackwell 架构技术博客；The Information - OpenAI 2026 前沿模型规划报道；AnandTech - GB200 NVL72 系统深度解析

本解读由 AI 自动生成，仅供参考。请以原文为准。