编辑洞察:Agent 研究正在经历一场范式跃迁——从「调用工具的 LLM」到「自主进化的智能系统」。三个信号值得关注:(1) Agentic RL 成为最热子方向,RL 正从对齐工具升级为 Agent 训练基础设施;(2) GUI Agent 进入工业化阶段,UI-TARS-2 和 ScreenCoder 推动多轮交互闭环;(3) 科研 Agent 从辅助工具走向自主闭环——NovelSeek 实现从假设到验证的完整科研链路。
PaperScope 数据库共收录 1,189 篇 Agent 标签论文,其中 100+ upvotes 论文达 21 篇,社区关注度在所有标签中排名第五。这些论文覆盖了 Agent 研究的全谱系——从底层的强化学习训练范式,到上层的 GUI 自动化、Web 导航、科学发现应用。
本期创刊号从全量论文中按社区影响力(upvotes)筛选 Top 25 篇进行深度解读,并提炼出四条核心研究主线:
- 1Agentic RL — 强化学习正从 LLM 对齐延伸到 Agent 训练的核心基础设施
- 2GUI & Web Agent — 从 UI 理解到多轮操作闭环,GUI Agent 进入工程化落地
- 3科研 Agent — 自主科研从愿景走向闭环系统,MLGym/NovelSeek 打通完整链路
- 4Agent 进化与评测 — 自演化、终身学习与评测基准同步成熟
速览 · Top 25 Agent 论文
| # | 论文 | 子方向 | Votes | 一句话 |
|---|---|---|---|---|
| 1 | Foundation Agents | 综述 | 295 | 脑启发智能到进化协作安全的 Agent 全景综述 |
| 2 | DeepSeek-V3.2 | 基座模型 | 261 | 开源 MoE 355B,推理+Agent 双能力前沿 |
| 3 | Agentic RL Survey | Agentic RL | 233 | 首篇 Agentic RL 系统综述,从单步到多步 MDP |
| 4 | GLM-4.5 | 基座模型 | 206 | 355B MoE 开源,Agent/推理/代码三合一 |
| 5 | MLGym | 科研 Agent | 194 | 首个 ML 任务 Gym 环境,13 个开放科研任务 |
| 6 | AgentFly | Agent 训练 | 160 | 不微调 LLM 即可持续适配 Agent 行为 |
| 7 | Agentic RPO | Agentic RL | 158 | 平衡内在推理与外部工具使用的 RL 算法 |
| 8 | WebWatcher | Web Agent | 141 | 多模态深度研究 Agent,视觉感知+逻辑推理 |
| 9 | Sci-LLM Survey | 科研 Agent | 140 | 科学 LLM 综述:从数据基础到 Agent 前沿 |
| 10 | Agent Lightning | Agentic RL | 137 | 解耦执行与训练,通用 Agent RL 框架 |
| 11 | Chain-of-Agents | 多 Agent | 129 | 多 Agent 蒸馏 + Agentic RL 端到端训练 |
| 12 | UI-TARS-2 | GUI Agent | 125 | 多轮 RL 训练 GUI Agent,跨操作系统操控 |
| 13 | WebSailor | Web Agent | 124 | 开源超人推理 Web Agent,BrowseComp 突破 |
| 14 | NovelSeek | 科研 Agent | 121 | 假设→实验→验证闭环,自主科研 Agent 框架 |
| 15 | rStar2-Agent | Agentic RL | 117 | 14B 数学推理 Agent,Agentic RL + 工具使用 |
| 16 | WideSearch | Web Agent | 111 | 广域信息搜索 Agent 基准评测 |
| 17 | Agent-R | Agent 训练 | 109 | 迭代自训练教 Agent 从错误中反思恢复 |
| 18 | 4KAgent | 应用 Agent | 106 | Agent 框架驱动任意图像→4K 超分辨率 |
| 19 | Web-Shepherd | Web Agent | 105 | Web Agent 过程奖励模型,训练+推理双用 |
| 20 | ScienceBoard | 科研 Agent | 104 | 真实科研工作流的多模态 Agent 评测基准 |
| 21 | Search-o1 | 推理 Agent | 102 | 搜索增强大推理模型,解决知识不足问题 |
| 22 | ReasonMed | 领域 Agent | 102 | 370K 多 Agent 生成的医学推理数据集 |
| 23 | ScreenCoder | GUI Agent | 100 | 模块化多模态 Agent 实现 UI 设计→代码 |
| 24 | Self-Evolving Agents | Agent 进化 | 99 | 自演化 Agent 综述——终身学习新范式 |
| 25 | LLM Agent Eval Survey | 评测 | 96 | 首篇 LLM Agent 评测方法论系统综述 |