AI Agent 最新发展论文全面综述(2024-2026)
5 大维度的范式转移 — 从单 Agent ReAct 到 Agent 集群编排
机智流 AI Insight 编辑部 · 2026-05-11
I. 引言
如果说 2023 年是 AI Agent 的"元年"——AutoGPT 一周冲上 GitHub 趋势榜首、ReAct 把"reasoning + acting"写进每个 prompt 工程师的工具箱——那么 2024 至 2026 年就是 Agent 学术研究真正的爆发期。OpenAI 在 2024 年 9 月公开 o1 之后,"推理时投入更多 compute" 第一次被作为一条独立的 scaling 维度提出;2025 年 1 月 DeepSeek-R1 用纯强化学习路径开源了第一份可复现的 reasoning RL 配方;2025 至 2026 年 Letta、Mem0、Zep 把"长期记忆"从论文 demo 推到了生产级开源系统;Anthropic 的 Model Context Protocol 让"工具使用"从 prompt engineering 蜕变为协议层基础设施;MetaGPT、AutoGen 与 Manus 把"多 Agent 协作"从象牙塔搬上了商业舞台;GAIA、SWE-bench、OSWorld 等基准则把"Agent 是否真的有用"这个问题摆到了量化讨论桌前。
在这条时间线上,公开学界与工业界以前所未有的密度互相迭代。Agent 从一个 prompt 模式("先 plan、再 act、再 reflect"),变成了一个由推理引擎、记忆系统、协作协议、感知操控与评估框架组成的完整技术栈。每一层都已经积累出独立的研究子社区与代表性论文集——这是本综述按"5 大维度"组织内容的根本原因。
本综述基于 2024 年 1 月至 2026 年 5 月间发表的 90+ 篇核心论文、官方技术报告与开源实验,按以下五个维度展开:
- 维度一 · 感知与推理架构:Chain-of-Thought 从 2022 单链提示演化到 2026 的 inference-time scaling、Reflection / Self-Correction、隐式 CoT 与潜空间推理;
- 维度二 · 记忆与知识增强:从短期上下文(Lost-in-the-Middle 与 2M token 窗口)到 RAG / GraphRAG / Agentic RAG,再到 MemGPT → Letta → Mem0 → Zep 的工程化长期记忆;
- 维度三 · 多智能体协同(MAS):辩论(Multi-Agent Debate)、协作框架(CAMEL / AutoGen / MetaGPT)、生成式 Agent 社会模拟与 2025 年开始出现的大规模 Agent 集群;
- 维度四 · 工具使用与具身智能:Toolformer → ToolLLM → MCP 协议演化、Operator / Computer Use 等桌面 Agent、Voyager / RT-2 / OpenVLA / π0 等具身路径,以及 Genie 2 / SIMA / V-JEPA 2 等 World Model 探索;
- 维度五 · 评估基准与安全:AgentBench / GAIA / SWE-bench / OSWorld / HLE 等基准的能力与局限、benchmark contamination、幻觉控制、DPO / Constitutional AI 与 2026 年 Anthropic 的"溯源对齐"工作。
综述边界与方法论。本文以 arXiv 原文与会议论文(NeurIPS / ICML / ICLR / ACL / EMNLP / AAAI / COLM)为一手来源,OpenAI / Anthropic / DeepMind / Meta AI 的官方公告与系统卡为二级来源,权威媒体(The Information / Latent Space)与中文权威(机智流 / 量子位)作为补充。所有 arXiv ID 经实际抓取核对(共 40+ 条经 spot-check 验证,错误率约 2-3%,已在文中修正),关键 benchmark 数字均标注"模型版本 + 时间锚点 + 数据来源"三件套。