NVIDIA:携手 OpenAI,GB200 NVL72 让 GPT-5.5 的 token 成本下降 35 倍
NVIDIA 称 GPT-5.5 基于 GB200 NVL72 训练与部署,相较此前 token 成本降低 35 倍,为多步骤执行密集型任务提供企业级稳态性能,NVIDIA 内部已用 OpenAI Codex Agents 规模化人类创造力。
查看原文核心要点
2026 年 4 月 23 日,NVIDIA 官方账号 @nvidia 发文,披露了基于 Blackwell 架构 GB200 NVL72 机架级系统的 GPT-5.5 训练与部署成本数据。核心主张是:GPT-5.5 相比此前方案,单 token 推理成本降低 35 倍,系统能够提供"企业级稳态性能"以支撑多步骤执行(multi-step)的密集型任务。NVIDIA 还透露其内部已规模化部署 OpenAI Codex Agents,将其作为"规模化人类创造力"的工具。这是 NVIDIA 在 2026 GTC 之后首次以官方身份量化 Blackwell 系统对前沿模型的能效提升,具有明确的市场信号意义。
原文引用
原文:"GPT-5.5, trained and deployed on GB200 NVL72, delivers a 35x reduction in token cost versus prior generation — enabling enterprise-grade steady-state performance for multi-step execution intensive tasks. NVIDIA's own teams are already scaling human creativity with OpenAI Codex Agents at scale."
翻译:GPT-5.5,基于 GB200 NVL72 训练与部署,相较上一代实现了 token 成本降低 35 倍——为企业级稳态性能提供支撑,适用于多步骤执行的密集型任务。NVIDIA 自家团队已在规模化地用 OpenAI Codex Agents 放大人类创造力。
深度解读
1. 为什么"35 倍"这个数字如此关键?
当前大模型推理成本的核心瓶颈在于 GPU 显存带宽与 NVLink 互连带宽的协同效率。GB200 NVL72 将 72 块 Blackwell GPU 通过 NVLink 5.0 全互联,单机架提供 1.4 exaFLOPS 的 BF16 算力,同时显存带宽达到 576 TB/s(相较 H100 NVL36 提升约 3 倍)。对于 GPT-5.5 级别(据估计参数量在 1-2 万亿区间)的密集推理,KV-cache 读写、Attention 计算与自回归解码对带宽极度敏感——NVL72 将所有 GPU 视为单一大型计算节点,彻底消除了跨节点通信的带宽墙,使得批量处理长序列任务时每个 token 的摊销成本大幅下降。35 倍不是一个瞬时峰值,而是一个"稳态"数字,这意味着在持续高负载的企业场景下,硬件利用率得以维持在较高水平。
2. "企业级稳态性能"意味着什么?
NVIDIA 在此处使用"steady-state"一词,刻意与"benchmark 峰值"拉开差距。SOTA 模型在 LLM 推理时常见的性能陷阱是长序列下的 KV-cache 溢出与 decode 阶段的 GPU 利用率骤降。NVL72 的 72 GPU 共享 1.4 TB HBM3e 内存,使得即便是 128K 上下文的 Attention 矩阵也能完整驻留在统一内存中,避免了代价极高的跨节点 KV-cache 迁移。对于需要 Agent 循环(plan → act → observe → plan)的工作流,每一次 Agent 迭代涉及多次模型调用,稳态性能直接决定端到端延迟与用户体验。NVIDIA 暗示 NVL72 使企业能够以可预测的成本运行这类复杂 Agent 工作流,而非在高峰期遭遇性能断崖。
3. NVIDIA 自用 OpenAI Codex Agents 的战略意图
NVIDIA 将 OpenAI Codex Agents 纳入内部工作流,是一个值得关注的信号。Codex 是 GitHub Copilot 的底层模型,专长于代码生成与任务分解,属于典型的 Agent 型应用。NVIDIA 作为芯片公司,内部存在大量芯片设计验证 RTL、编译器优化、CUDA kernel 编写等高价值代码任务。若 NVIDIA 内部已用 Codex Agents 在 NVL72 集群上规模化运行,这意味着:(a)NVL72 对 Agent 密集型多轮推理场景已有成熟的软件栈支持;(b)NVIDIA 正在从"硬件供应商"向"AI 基础设施全栈服务商"延伸,内部用例是最有力的产品验证;(c)OpenAI 与 NVIDIA 的合作深度已进入联合优化阶段,而非简单的 API 调用关系。
值得关注
- GPT-5.5 的实际发布时间线:目前 OpenAI 官方产品线最高为 GPT-4o 与 o3,GPT-5.5 是否为内部代号或即将发布的模型?若为 2026 年内的产品规划,NVIDIA 的这条推文可能是一个联合预热。
- 35 倍成本的基准对比对象:NVIDIA 未明确"prior generation"是指 H100、H200 还是 L40S。基准不同,35 倍的含金量差异极大。若对标 H100 NVL36,3 倍带宽提升理论上对应 2-3 倍成本改善,35 倍则暗示存在算法层面的联合优化(如 Continuous Batching、Speculative Decoding 与 NVLink 5.0 的协同)。
- GB200 NVL72 的出货量与客户名单:微软 Azure、AWS、Google Cloud 均已宣布部署 GB200 NVL72,但大规模商业交付时间预计在 2026 Q3-Q4。NVIDIA 内部已用,不代表外部客户也已跑通同等效果。
- OpenAI 与 NVIDIA 的合作边界:是否会进一步延伸至 NVIDIA NIM(NVIDIA Inference Microservices)平台上的模型优化?若 GPT-5.5 的 token 成本压缩主要来自 NVLink 5.0 硬件特性,则其他云厂商通过自有硬件难以复制,NVIDIA 的生态锁定效应将进一步强化。
- 竞争对手的应对策略:AMD MI350X 与 Intel Gaudi 3 在多 GPU 互连带宽上的差距仍然显著(MI350X 的 Infinity Fabric 带宽约为 NVLink 5.0 的 40%),若 35 倍数据属实,将给 AMD 和 Intel 的高端推理市场带来极大压力。
信源行:
原文链接:https://x.com/nvidia/status/2047414012934082751
背景报道:NVIDIA 官方 Blackwell 架构技术博客;The Information - OpenAI 2026 前沿模型规划报道;AnandTech - GB200 NVL72 系统深度解析