编辑洞察:AI 芯片格局正在经历三重变革——(1) NVIDIA 的统治地位首次面临实质挑战:AMD MI350 系列声称推理性能达 MI300X 的 35 倍,Google TPU v7 Ironwood 拿下 Anthropic 百万芯片订单,AWS Trainium2 以 30-40% 性价比优势吸引客户自建训练基础设施;(2) 中国芯片自主可控进入实战阶段:华为昇腾 910C 量产出货、寒武纪首次实现盈利、海光深算系列成为国产训练集群首选,尽管受限于 7nm 制程,但架构创新和软件生态建设正在缩小差距;(3) 推理专用架构崛起:Groq LPU、Cerebras WSE 等非冯诺依曼架构在推理延迟和吞吐量上展现出 GPU 难以企及的优势,NVIDIA 也以 Rubin CPX 回应推理专用需求。
本报告对截至 2026 年 3 月全球主要 AI 芯片厂商的技术栈进行全景拆解,涵盖训练芯片(NVIDIA、AMD、Google TPU、华为昇腾)、推理芯片(Groq LPU、Cerebras WSE、NVIDIA 推理产品线)、云厂商自研芯片(AWS Trainium/Inferentia、Google TPU)以及国产 AI 芯片(寒武纪、燧原科技、摩尔线程、壁仞科技、海光 DCU)七大板块。
报告结构分为七个部分:
- 1全球芯片格局速览 — 主要厂商与产品一览表
- 2训练芯片深度拆解 — NVIDIA / AMD / Google TPU / 华为昇腾
- 3推理芯片深度拆解 — Groq / Cerebras / NVIDIA 推理线 / 国产推理芯片
- 4软件生态对比 — CUDA vs ROCm vs oneAPI vs CANN vs Neuron SDK
- 5技术趋势 — HBM 演进 / Chiplet / 光互连 / CXL / 稀疏计算 / 量化推理
- 6参考文献
速览 · 全球 AI 芯片格局
| 厂商 | 代表产品 | 制程 | 显存 | 算力 (FP8/INT8) | 定位 |
|---|---|---|---|---|---|
| NVIDIA | B200 (Blackwell) | 4nm | 192 GB HBM3e | ~20 PFLOPS FP8 | 训练+推理 |
| NVIDIA | GB200 NVL72 | 4nm | 72x192 GB | 1.44 EFLOPS FP4 | 超大规模训练 |
| NVIDIA | Rubin (2026 H2) | 3nm | 288 GB HBM4 | 待公布 | 下一代训练+推理 |
| AMD | MI325X | 5nm (CDNA 3) | 256 GB HBM3e | 2,615 TFLOPS FP8 | 训练+推理 |
| AMD | MI350X (2025) | 3nm (CDNA 4) | 288 GB HBM3e | 声称 4x MI300X | 训练+推理 |
| TPU v6 (Trillium) | — | 2x HBM | 4.7x TPU v5e | 训练+推理 | |
| TPU v7 (Ironwood) | — | — | ~2,300 BF16 TFLOPS | 下一代训练 | |
| AWS | Trainium2 | — | 96 GB HBM3/chip | 20.8 PFLOPS/节点 | 训练 |
| Intel | Gaudi 3 | 5nm | 128 GB HBM | 1,835 BF16 TFLOPS | 训练+推理 |
| 华为 | 昇腾 910C | 7nm | 96 GB HBM2e | ~800 TFLOPS FP16 | 训练+推理 |
| 寒武纪 | MLU590 | 7nm | — | 800 TOPS/W (宣称) | 训练+推理 |
| Groq | LPU (TSP) | 14nm→4nm | 230 MB SRAM/chip | 确定性超低延迟 | 推理专用 |
| Cerebras | WSE-3 (CS-3) | 5nm | 44 GB SRAM | 125 PFLOPS | 训练+推理 |
| SambaNova | SN40L RDU | 5nm | 1.5 TB (三级) | 640 BF16 TFLOPS | 训练+推理 |
| 海光 | 深算二号 DCU | 7nm | 512 GB | — | 训练 |
注:部分数据为厂商公布的峰值理论性能,实际应用性能因工作负载而异。"—" 表示厂商未公开具体数值。