AI Insight 深度研报 · 2026.03

AI 芯片全景:推理训练芯片技术栈与架构平台深度拆解

覆盖 15+ 家芯片厂商 · 训练与推理双赛道 · 软件生态对比 · 技术趋势前瞻

15+ 芯片厂商
5 软件生态
6 技术趋势
20+ 参考信源
编辑洞察:AI 芯片格局正在经历三重变革——(1) NVIDIA 的统治地位首次面临实质挑战:AMD MI350 系列声称推理性能达 MI300X 的 35 倍,Google TPU v7 Ironwood 拿下 Anthropic 百万芯片订单,AWS Trainium2 以 30-40% 性价比优势吸引客户自建训练基础设施;(2) 中国芯片自主可控进入实战阶段:华为昇腾 910C 量产出货、寒武纪首次实现盈利、海光深算系列成为国产训练集群首选,尽管受限于 7nm 制程,但架构创新和软件生态建设正在缩小差距;(3) 推理专用架构崛起:Groq LPU、Cerebras WSE 等非冯诺依曼架构在推理延迟和吞吐量上展现出 GPU 难以企及的优势,NVIDIA 也以 Rubin CPX 回应推理专用需求。

本报告对截至 2026 年 3 月全球主要 AI 芯片厂商的技术栈进行全景拆解,涵盖训练芯片(NVIDIA、AMD、Google TPU、华为昇腾)、推理芯片(Groq LPU、Cerebras WSE、NVIDIA 推理产品线)、云厂商自研芯片(AWS Trainium/Inferentia、Google TPU)以及国产 AI 芯片(寒武纪、燧原科技、摩尔线程、壁仞科技、海光 DCU)七大板块。

报告结构分为七个部分:

速览 · 全球 AI 芯片格局

厂商 代表产品 制程 显存 算力 (FP8/INT8) 定位
NVIDIAB200 (Blackwell)4nm192 GB HBM3e~20 PFLOPS FP8训练+推理
NVIDIAGB200 NVL724nm72x192 GB1.44 EFLOPS FP4超大规模训练
NVIDIARubin (2026 H2)3nm288 GB HBM4待公布下一代训练+推理
AMDMI325X5nm (CDNA 3)256 GB HBM3e2,615 TFLOPS FP8训练+推理
AMDMI350X (2025)3nm (CDNA 4)288 GB HBM3e声称 4x MI300X训练+推理
GoogleTPU v6 (Trillium)2x HBM4.7x TPU v5e训练+推理
GoogleTPU v7 (Ironwood)~2,300 BF16 TFLOPS下一代训练
AWSTrainium296 GB HBM3/chip20.8 PFLOPS/节点训练
IntelGaudi 35nm128 GB HBM1,835 BF16 TFLOPS训练+推理
华为昇腾 910C7nm96 GB HBM2e~800 TFLOPS FP16训练+推理
寒武纪MLU5907nm800 TOPS/W (宣称)训练+推理
GroqLPU (TSP)14nm→4nm230 MB SRAM/chip确定性超低延迟推理专用
CerebrasWSE-3 (CS-3)5nm44 GB SRAM125 PFLOPS训练+推理
SambaNovaSN40L RDU5nm1.5 TB (三级)640 BF16 TFLOPS训练+推理
海光深算二号 DCU7nm512 GB训练

注:部分数据为厂商公布的峰值理论性能,实际应用性能因工作负载而异。"—" 表示厂商未公开具体数值。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录