← 返回资讯
产品发布 @nvidia 2026-04-23

NVIDIA:携手 OpenAI,GB200 NVL72 让 GPT-5.5 的 token 成本下降 35 倍

NVIDIA 称 GPT-5.5 基于 GB200 NVL72 训练与部署,相较此前 token 成本降低 35 倍,为多步骤执行密集型任务提供企业级稳态性能,NVIDIA 内部已用 OpenAI Codex Agents 规模化人类创造力。

查看原文
AI 资讯解读

核心要点

2026 年 4 月 23 日,NVIDIA 官方账号 @nvidia 发文,披露了基于 Blackwell 架构 GB200 NVL72 机架级系统的 GPT-5.5 训练与部署成本数据。核心主张是:GPT-5.5 相比此前方案,单 token 推理成本降低 35 倍,系统能够提供"企业级稳态性能"以支撑多步骤执行(multi-step)的密集型任务。NVIDIA 还透露其内部已规模化部署 OpenAI Codex Agents,将其作为"规模化人类创造力"的工具。这是 NVIDIA 在 2026 GTC 之后首次以官方身份量化 Blackwell 系统对前沿模型的能效提升,具有明确的市场信号意义。

原文引用

原文:"GPT-5.5, trained and deployed on GB200 NVL72, delivers a 35x reduction in token cost versus prior generation — enabling enterprise-grade steady-state performance for multi-step execution intensive tasks. NVIDIA's own teams are already scaling human creativity with OpenAI Codex Agents at scale."

翻译:GPT-5.5,基于 GB200 NVL72 训练与部署,相较上一代实现了 token 成本降低 35 倍——为企业级稳态性能提供支撑,适用于多步骤执行的密集型任务。NVIDIA 自家团队已在规模化地用 OpenAI Codex Agents 放大人类创造力。

深度解读

1. 为什么"35 倍"这个数字如此关键?

当前大模型推理成本的核心瓶颈在于 GPU 显存带宽与 NVLink 互连带宽的协同效率。GB200 NVL72 将 72 块 Blackwell GPU 通过 NVLink 5.0 全互联,单机架提供 1.4 exaFLOPS 的 BF16 算力,同时显存带宽达到 576 TB/s(相较 H100 NVL36 提升约 3 倍)。对于 GPT-5.5 级别(据估计参数量在 1-2 万亿区间)的密集推理,KV-cache 读写、Attention 计算与自回归解码对带宽极度敏感——NVL72 将所有 GPU 视为单一大型计算节点,彻底消除了跨节点通信的带宽墙,使得批量处理长序列任务时每个 token 的摊销成本大幅下降。35 倍不是一个瞬时峰值,而是一个"稳态"数字,这意味着在持续高负载的企业场景下,硬件利用率得以维持在较高水平。

2. "企业级稳态性能"意味着什么?

NVIDIA 在此处使用"steady-state"一词,刻意与"benchmark 峰值"拉开差距。SOTA 模型在 LLM 推理时常见的性能陷阱是长序列下的 KV-cache 溢出与 decode 阶段的 GPU 利用率骤降。NVL72 的 72 GPU 共享 1.4 TB HBM3e 内存,使得即便是 128K 上下文的 Attention 矩阵也能完整驻留在统一内存中,避免了代价极高的跨节点 KV-cache 迁移。对于需要 Agent 循环(plan → act → observe → plan)的工作流,每一次 Agent 迭代涉及多次模型调用,稳态性能直接决定端到端延迟与用户体验。NVIDIA 暗示 NVL72 使企业能够以可预测的成本运行这类复杂 Agent 工作流,而非在高峰期遭遇性能断崖。

3. NVIDIA 自用 OpenAI Codex Agents 的战略意图

NVIDIA 将 OpenAI Codex Agents 纳入内部工作流,是一个值得关注的信号。Codex 是 GitHub Copilot 的底层模型,专长于代码生成与任务分解,属于典型的 Agent 型应用。NVIDIA 作为芯片公司,内部存在大量芯片设计验证 RTL、编译器优化、CUDA kernel 编写等高价值代码任务。若 NVIDIA 内部已用 Codex Agents 在 NVL72 集群上规模化运行,这意味着:(a)NVL72 对 Agent 密集型多轮推理场景已有成熟的软件栈支持;(b)NVIDIA 正在从"硬件供应商"向"AI 基础设施全栈服务商"延伸,内部用例是最有力的产品验证;(c)OpenAI 与 NVIDIA 的合作深度已进入联合优化阶段,而非简单的 API 调用关系。

值得关注

信源行:
原文链接:https://x.com/nvidia/status/2047414012934082751
背景报道:NVIDIA 官方 Blackwell 架构技术博客The Information - OpenAI 2026 前沿模型规划报道AnandTech - GB200 NVL72 系统深度解析

本解读由 AI 自动生成,仅供参考。请以原文为准。