AI 芯片全景：推理训练芯片技术栈与架构平台深度拆解

编辑洞察：AI 芯片格局正在经历三重变革——(1) NVIDIA 的统治地位首次面临实质挑战：AMD MI350 系列声称推理性能达 MI300X 的 35 倍，Google TPU v7 Ironwood 拿下 Anthropic 百万芯片订单，AWS Trainium2 以 30-40% 性价比优势吸引客户自建训练基础设施；(2) 中国芯片自主可控进入实战阶段：华为昇腾 910C 量产出货、寒武纪首次实现盈利、海光深算系列成为国产训练集群首选，尽管受限于 7nm 制程，但架构创新和软件生态建设正在缩小差距；(3) 推理专用架构崛起：Groq LPU、Cerebras WSE 等非冯诺依曼架构在推理延迟和吞吐量上展现出 GPU 难以企及的优势，NVIDIA 也以 Rubin CPX 回应推理专用需求。

本报告对截至 2026 年 3 月全球主要 AI 芯片厂商的技术栈进行全景拆解，涵盖训练芯片（NVIDIA、AMD、Google TPU、华为昇腾）、推理芯片（Groq LPU、Cerebras WSE、NVIDIA 推理产品线）、云厂商自研芯片（AWS Trainium/Inferentia、Google TPU）以及国产 AI 芯片（寒武纪、燧原科技、摩尔线程、壁仞科技、海光 DCU）七大板块。

报告结构分为七个部分：

1全球芯片格局速览 — 主要厂商与产品一览表
2训练芯片深度拆解 — NVIDIA / AMD / Google TPU / 华为昇腾
3推理芯片深度拆解 — Groq / Cerebras / NVIDIA 推理线 / 国产推理芯片
4软件生态对比 — CUDA vs ROCm vs oneAPI vs CANN vs Neuron SDK
5技术趋势 — HBM 演进 / Chiplet / 光互连 / CXL / 稀疏计算 / 量化推理
6参考文献

速览 · 全球 AI 芯片格局

厂商	代表产品	制程	显存	算力 (FP8/INT8)	定位
NVIDIA	B200 (Blackwell)	4nm	192 GB HBM3e	~20 PFLOPS FP8	训练+推理
NVIDIA	GB200 NVL72	4nm	72x192 GB	1.44 EFLOPS FP4	超大规模训练
NVIDIA	Rubin (2026 H2)	3nm	288 GB HBM4	待公布	下一代训练+推理
AMD	MI325X	5nm (CDNA 3)	256 GB HBM3e	2,615 TFLOPS FP8	训练+推理
AMD	MI350X (2025)	3nm (CDNA 4)	288 GB HBM3e	声称 4x MI300X	训练+推理
Google	TPU v6 (Trillium)	—	2x HBM	4.7x TPU v5e	训练+推理
Google	TPU v7 (Ironwood)	—	—	~2,300 BF16 TFLOPS	下一代训练
AWS	Trainium2	—	96 GB HBM3/chip	20.8 PFLOPS/节点	训练
Intel	Gaudi 3	5nm	128 GB HBM	1,835 BF16 TFLOPS	训练+推理
华为	昇腾 910C	7nm	96 GB HBM2e	~800 TFLOPS FP16	训练+推理
寒武纪	MLU590	7nm	—	800 TOPS/W (宣称)	训练+推理
Groq	LPU (TSP)	14nm→4nm	230 MB SRAM/chip	确定性超低延迟	推理专用
Cerebras	WSE-3 (CS-3)	5nm	44 GB SRAM	125 PFLOPS	训练+推理
SambaNova	SN40L RDU	5nm	1.5 TB (三级)	640 BF16 TFLOPS	训练+推理
海光	深算二号 DCU	7nm	512 GB	—	训练

注：部分数据为厂商公布的峰值理论性能，实际应用性能因工作负载而异。"—" 表示厂商未公开具体数值。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或