深度研报 · LLM 架构演化

LLM 架构演化全景:从 Transformer 到后 Transformer

2017—2026 大语言模型架构主线 · 十大公司模型体系深度拆解 · 训练范式演进 · 后 Transformer 探索

9 年演化历程
10 公司模型体系
5 训练范式
3 后 Transformer 方向
编辑洞察:截至 2026 年,LLM 架构演化呈现三个核心趋势:(1) MoE 成为主流范式——从 GPT-4 到 DeepSeek-V3、Qwen3、Mistral Large 3、GLM-5,主力模型几乎全部转向稀疏混合专家架构,以解耦模型容量与推理成本;(2) 架构组件标准化——RoPE + RMSNorm + SwiGLU + GQA/MLA + FlashAttention 构成了"现代 LLM 标准配置",差异化竞争从架构转向数据和训练方法;(3) 后 Transformer 探索加速——Mamba、RWKV、Jamba 等混合架构正在挑战纯 Transformer 的统治地位,但尚未实现全面替代。

本报告从架构演化时间线出发,系统梳理 2017—2026 年间大语言模型的关键里程碑,深入拆解三大基础架构和六大核心组件,覆盖 OpenAI、Google、Meta、Anthropic、DeepSeek、Qwen、GLM、Mistral、xAI、Kimi 十大模型体系,并展望后 Transformer 架构方向。三个研究主题值得关注:

TIMELINE

架构演化时间线:2017—2026

2017
Transformer 诞生 — Google 发表"Attention Is All You Need"[1],提出自注意力机制取代 RNN/LSTM,开启 LLM 时代。Encoder-Decoder 架构,8 头注意力,512 维隐层。
2018
GPT-1 & BERT — OpenAI 发布 GPT-1(117M 参数,Decoder-only)[2],Google 发布 BERT(340M 参数,Encoder-only)[3]。两条技术路线分野:生成 vs 理解。
2019
GPT-2 & 规模定律萌芽 — OpenAI 发布 GPT-2(1.5B 参数)[4],首次展示"大力出奇迹"——规模扩大带来涌现能力。T5 提出统一文本到文本框架[5]
2020
GPT-3 & 规模定律 — 175B 参数的 GPT-3 展示少样本学习能力[6]。Kaplan et al. 发表 Scaling Laws[7],为后续规模竞赛提供理论基础。
2022
ChatGPT & InstructGPT — InstructGPT 引入 RLHF 范式[8],ChatGPT 引爆 AI 应用。FlashAttention 问世[9],IO-aware 注意力实现 2-4x 加速。Chinchilla 修正规模定律[10]:数据量与参数量同等重要。
2023
GPT-4 & 开源爆发 — GPT-4 采用 MoE 架构(据报道约 1.8T 参数,16 个专家[11]。Meta 发布 LLaMA(7B-65B)[12] 引发开源浪潮。Mistral 7B[13] 和 Mixtral 8x7B 推动 MoE 开源化。FlashAttention-2 实现 2x 加速[14]
2024
MoE 大一统 & 中国力量崛起 — DeepSeek-V2 提出 MLA + DeepSeekMoE[15]。LLaMA 3(8B-405B)训练 15T tokens[16]。Qwen2 系列开源[17]Mamba SSM[18]Jamba 混合架构[19] 挑战 Transformer。FlashAttention-3 针对 H100 优化[20]
2025
推理模型 & MoE 全面转向 — DeepSeek-V3(671B/37B 激活)[21],DeepSeek-R1 开启推理 RL 范式。GPT-5 发布(架构细节未公开)。Gemini 2.5 Pro 原生思维链。LLaMA 4 Scout/Maverick 标志 Meta 转向 MoE。Qwen3 统一思考/非思考模式[23]。Kimi K2(1T/32B 激活)[24]。Claude 4 系列发布。Mistral Large 3(675B/41B 激活)。
2026
Agent 时代 & 模型迭代加速 — Claude Opus/Sonnet 4.6 引入自适应思考 + 1M 上下文。Gemini 3.1 Pro 三级思考系统。GPT-5.4 整合 Codex 编码 + Agent 能力 + 1M 上下文。Grok 4.20 Beta 4-Agent 并行协作。DeepSeek-V3.2 引入 DSA[26]。Phi-4-Reasoning-Vision 推进小模型推理。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录