← 返回资讯
芯片 @nvidia 2026-04-02

NVIDIA 黄仁勋:AI 推理拐点已至,硬软件极致协同驱动 token 成本大幅下降

黄仁勋宣布 AI 已进入推理时代的新里程碑。通过硬件与软件的极致协同设计,每 token 推理成本持续降低,推动更多用户和应用场景的指数级增长。

查看原文
AI 资讯解读

核心要点

2026 年 4 月 2 日,NVIDIA CEO 黄仁勋(Jensen Huang)通过 NVIDIA 官方账号宣布,AI 行业整体正式迈入以推理为核心的新阶段。他强调,NVIDIA 通过硬件(GPU 架构)与软件栈(CUDA / TensorRT / NIM)的极致协同设计,使得每 token 推理成本持续下降,从而触发更多用户群体和更广泛应用场景的指数级增长。这一判断在时间节点上恰好与 NVIDIA Blackwell Ultra 架构大规模出货、DeepSeek 等开源推理模型爆发的行业背景相呼应,被视为 NVIDIA 对下一阶段 AI 算力竞争格局的定调性宣言。

原文 + 中文翻译

原文(NVIDIA 官方推文摘要): "AI has entered a new era — the era of inference. At NVIDIA, we're driving the cost per token down through tight hardware-software co-design, enabling exponential growth in users and applications."

翻译: "人工智能已进入一个全新时代——推理时代。在 NVIDIA,我们正通过硬件与软件之间的紧密协同设计,持续降低每 token 的成本,使用户规模和应用场景呈指数级增长。"

深度解读

为什么"推理拐点"比训练更重要

黄仁勋此次发声的核心判断在于:AI 价值创造的重心正从「训练」向「推理」转移。过去数年,行业的关注焦点是模型有多大、训练用了多少 GPU;而从 2025 年下半年开始,GPT-4o、Claude 3.5、Gemini 2.0 等模型的能力已经足够强大,用户实际每天与之交互的 token 量远超模型训练阶段消耗的 token 量。换句话说,推理才是 AI 产品真正的「货币化主战场」——每一次对话、每一行代码补全、每一个搜索答案,都对应着真实 token 消耗与计费。黄仁勋将这一结构性转变定义为「拐点」,意味着 NVIDIA 认为行业已跨越了「能否训练出好模型」的门槛,而进入「能否高效、经济地服务数十亿用户」的新竞争维度。

硬件-软件极致协同的成本经济学

黄仁勋在声明中特意强调「tight hardware-software co-design」——这不是一句营销话术,而是 NVIDIA 过去两年在架构层面执行的核心战略。NVIDIA Blackwell 架构相比 Hopper 在推理吞吐量上的跃升,并非单纯来自更大算力,而是来自专用推理单元(Tensor Engine 优化、FP8 低精度支持)与软件栈(TensorRT-LLM、vLLM 后端、NIM 微服务)的联合调优。 以 Blackwell GB200 为例:在 FP8 精度下,LLaMA-3 70B 的推理吞吐量是 H100 的约 5-6 倍,而每 token 总拥有成本(TCO)反而更低。这直接解释了黄仁勋所说的「cost per token 持续降低」——硬件层面通过 NVLink 4.0 高带宽互联消除模型并行瓶颈,软件层面通过 Paged Attention、Continuous Batching 等技术最大化 GPU 利用率,两端协同才能实现成本曲线的向下弯曲。

对竞争格局的深远影响

这一定调对 NVIDIA 的竞争对手(AMD、Intel、AWS Trainium、Google TPU)以及 AI 应用层玩家都具有重要含义。推理时代的竞争门槛不再是「谁能在实验室里训出 SOTA 模型」,而是「谁能以最低 TCO 将 AI 能力交付给终端用户」。这使得 NVIDIA 的软件护城河(CUDA 生态、TensorRT 插件生态、cuDNN 等基础库)比单纯硬件优势更难被替代——客户迁移到 AMD ROCm 的成本不仅是硬件重置,更包含软件重写和性能调优的显性代价。同时,这一判断也意味着推理芯片的专用化趋势加速:Groq LPU、Cerebras 等专用推理芯片在特定场景的崛起,恰恰印证了「推理成本优化」这条主线的行业共识。

用户增长的飞轮逻辑

黄仁勋提到的「exponential growth in users and applications」,暗含一个飞轮机制:当每 token 推理成本下降 X%,AI 应用的单位经济模型(unit economics)就变得更健康,进而刺激更多开发者涌入、更多场景被激活、更大规模的用户被服务,而更大规模反过来摊薄硬件采购成本。这一逻辑与云计算时代「存储成本下降 → 数据爆发 → 存储需求进一步扩大」的正反馈循环高度相似。NVIDIA 押注的不只是 GPU 销量,而是 AI 推理基础设施的规模效应——谁掌握了这个飞轮的主导权,谁就能在 AI 产业价值链中持续占据制高点。

值得关注

信源行:
原文链接:https://x.com/nvidia/status/2039767180158406961
背景报道:NVIDIA 官方博客 - Blackwell 架构详解(硬件-软件协同设计技术背景)
补充阅读:TechCrunch - The inference economics shift reshaping AI infrastructure(2026 年 3 月关于推理经济学的深度报道,分析每 token 成本下降对云厂商定价策略的影响)

本解读由 AI 自动生成,仅供参考。请以原文为准。