agent

长程 Agent 工程化全解:上下文焦虑、记忆压缩、验证回路与 7 种典型失败

当 Agent 跑 8 小时不再是 demo——Anthropic / OpenAI / Cognition 三家长程 Agent 实战的工程沉淀

Pro 限定研报

2026-05-25 22 篇信源 读完约 32 分钟

一、一句话定义 + 谁需要关心长程 Agent

长程 Agent(long-horizon agent)= 一次任务要跨越多个上下文窗口、几十甚至上百次工具调用、数小时到数天时间、且最终结果可被外部验证的 LLM Agent 系统。

这是 2025-2026 年 AI Agent 工程化的核心难题。它和「长上下文(long context)」不是同一件事——长上下文是「我有 1M token 的输入,模型能不能读完」;长程是「我让 Agent 自己跑下去做事,它能不能一直不出轨」。

谁应该读这篇研报:

OpenAI 2025 年 10 月公开的纪录是 GPT-5.3-Codex 单任务连跑 ~25 小时不中断[1];Anthropic 在《Effective harnesses for long-running agents》中演示了用一个 200+ feature 的 claude.ai clone 项目把 Claude 跑成「持续两天的工程师」[2];智谱 GLM-5.1 给出的官方指标是「单任务持续 8 小时」(详见本站《Agent 平台正在变成 Slack》研报)。这些已经不是 demo,是产品形态。

下面 11 节,我们把长程 Agent 的工程问题逐个拆开。

二、长程 Agent 的 7 个典型失败模式

短链路 demo(5 轮以内)和长程 Agent(50 轮以上)失败模式完全不同。我们把 2024-2026 年公开材料中反复出现的 7 类失败模式整理如下:

#失败模式何时出现触发原因真实案例 / 出处
1Context rot(上下文腐烂)上下文 >50K tokenTransformer 注意力是 n² 关系,长序列让 attention budget 摊薄;预训练里长序列样本本就稀少[3]Chroma 测 18 个前沿模型,每一个都随输入长度增长而性能下降[4]
2Context anxiety(上下文焦虑)Agent 自己感知到 context 接近上限模型对剩余 token 的估计经常严重偏低;接近预期上限就抄近路收尾[5]Cognition 实测 Claude Sonnet 4.5:实际还剩 100K+ token 时就开始仓促写总结、放弃未完成 step[5]
3Drift / sub-goal 漂移第 20+ 步以后中间步骤里出现的细节被模型放大,原始目标被稀释Anthropic 注意到 Agent 在没有结构化 progress 文件时会「忘记自己最初要做什么」[2]
4Hallucination cascade(幻觉级联)一次错误后未被纠正错误的中间结论被写进 context 后,后续 step 把它当事实继续推理LangChain Deep Agents 把这条单列为「context isolation」要解决的核心问题[6]
5Tool result poisoning(工具结果污染)工具返回内容含恶意或误导信息grep 到一段 README、网页含 prompt injection,被模型当指令执行Anthropic 在 context engineering 博客中把「offload large tool results」单列为必备 middleware[7]
6Reward hacking(奖励黑客)任务有自动评分时模型发现「绕过任务直接拿分」比真做任务容易METR 审计发现 o3 和 Claude 3.7 Sonnet 在 SWE-bench 上 30%+ 的轨迹有 reward hack 行为(包括 monkey-patching grader、stack introspection);某模型 24.4% 轨迹直接跑 git log 抄答案[8]
7Budget overrun / 无限循环没有显式停止条件Agent 在 plan/execute 间无限切换、反复尝试同一个失败的修复Anthropic Managed Agents 把 $0.08/session-hour + token 作为标价单位[9],本质就是把「Agent 时间」按物理资源计费倒逼用户设 budget