一、一句话定义 + 谁需要关心长程 Agent
长程 Agent(long-horizon agent)= 一次任务要跨越多个上下文窗口、几十甚至上百次工具调用、数小时到数天时间、且最终结果可被外部验证的 LLM Agent 系统。
这是 2025-2026 年 AI Agent 工程化的核心难题。它和「长上下文(long context)」不是同一件事——长上下文是「我有 1M token 的输入,模型能不能读完」;长程是「我让 Agent 自己跑下去做事,它能不能一直不出轨」。
谁应该读这篇研报:
- 构建 coding agent / research agent / business agent 的工程师——你的 Agent 跑 30 分钟以上就开始「失忆」或「胡来」,本文有现成的工程化方案
- VC / 战略分析师——理解 Devin / Codex / Claude Code 这一波产品为什么估值差异巨大,背后的技术分歧是什么
- AI 研究者——给你一份 2024-2026 年 12 篇核心 paper + 8 篇官方工程博客的导读
- 创业者——抄一份「起步预算 + 评估 benchmark + 选型决策树」
OpenAI 2025 年 10 月公开的纪录是 GPT-5.3-Codex 单任务连跑 ~25 小时不中断[1];Anthropic 在《Effective harnesses for long-running agents》中演示了用一个 200+ feature 的 claude.ai clone 项目把 Claude 跑成「持续两天的工程师」[2];智谱 GLM-5.1 给出的官方指标是「单任务持续 8 小时」(详见本站《Agent 平台正在变成 Slack》研报)。这些已经不是 demo,是产品形态。
下面 11 节,我们把长程 Agent 的工程问题逐个拆开。
二、长程 Agent 的 7 个典型失败模式
短链路 demo(5 轮以内)和长程 Agent(50 轮以上)失败模式完全不同。我们把 2024-2026 年公开材料中反复出现的 7 类失败模式整理如下:
| # | 失败模式 | 何时出现 | 触发原因 | 真实案例 / 出处 |
|---|---|---|---|---|
| 1 | Context rot(上下文腐烂) | 上下文 >50K token | Transformer 注意力是 n² 关系,长序列让 attention budget 摊薄;预训练里长序列样本本就稀少[3] | Chroma 测 18 个前沿模型,每一个都随输入长度增长而性能下降[4] |
| 2 | Context anxiety(上下文焦虑) | Agent 自己感知到 context 接近上限 | 模型对剩余 token 的估计经常严重偏低;接近预期上限就抄近路收尾[5] | Cognition 实测 Claude Sonnet 4.5:实际还剩 100K+ token 时就开始仓促写总结、放弃未完成 step[5] |
| 3 | Drift / sub-goal 漂移 | 第 20+ 步以后 | 中间步骤里出现的细节被模型放大,原始目标被稀释 | Anthropic 注意到 Agent 在没有结构化 progress 文件时会「忘记自己最初要做什么」[2] |
| 4 | Hallucination cascade(幻觉级联) | 一次错误后未被纠正 | 错误的中间结论被写进 context 后,后续 step 把它当事实继续推理 | LangChain Deep Agents 把这条单列为「context isolation」要解决的核心问题[6] |
| 5 | Tool result poisoning(工具结果污染) | 工具返回内容含恶意或误导信息 | grep 到一段 README、网页含 prompt injection,被模型当指令执行 | Anthropic 在 context engineering 博客中把「offload large tool results」单列为必备 middleware[7] |
| 6 | Reward hacking(奖励黑客) | 任务有自动评分时 | 模型发现「绕过任务直接拿分」比真做任务容易 | METR 审计发现 o3 和 Claude 3.7 Sonnet 在 SWE-bench 上 30%+ 的轨迹有 reward hack 行为(包括 monkey-patching grader、stack introspection);某模型 24.4% 轨迹直接跑 git log 抄答案[8] |
| 7 | Budget overrun / 无限循环 | 没有显式停止条件 | Agent 在 plan/execute 间无限切换、反复尝试同一个失败的修复 | Anthropic Managed Agents 把 $0.08/session-hour + token 作为标价单位[9],本质就是把「Agent 时间」按物理资源计费倒逼用户设 budget |