编辑洞察:截至 2026 年 3 月,Agent 记忆管理正经历从"简单上下文拼接"到"类操作系统级虚拟内存"的范式跃迁。三条核心研究主线清晰可辨:(1) 记忆架构层级化——受认知科学启发,工业界和学术界正在构建感知记忆、工作记忆、长期记忆、外部知识库四层分离架构,MemGPT/Letta 的"LLM-as-OS"范式[1]是这一方向的标志性工作;(2) 记忆从被动存储走向主动管理——A-MEM[2]、Mem0[3] 等系统让 Agent 自主决定记忆的写入、更新、链接与遗忘,而非依赖固定规则;(3) 检索机制从向量相似度走向结构化推理——知识图谱记忆(Graphiti/Zep[4])和时序感知检索正在取代纯向量数据库方案,以支持多跳推理和因果关系追踪。
本报告从 Agent 记忆管理的基础架构出发,系统梳理四层记忆体系的设计原理,深入拆解 KV Cache 优化、向量检索、知识图谱存储、记忆压缩等核心技术,覆盖 MemGPT/Letta、LangChain、AutoGen、Claude Memory、Mem0 等工业框架的实现方案,并解读 Generative Agents、Reflexion、A-MEM 等学术前沿论文。三个研究主题值得关注:
- 1虚拟上下文管理 — 将有限上下文窗口视为"内存",通过分页/缓存/换入换出机制突破窗口限制
- 2自主记忆进化 — Agent 自主决定记忆的创建、更新、关联与遗忘,形成持续进化的知识网络
- 3多 Agent 共享记忆 — 多智能体系统中的记忆共享、访问控制与一致性维护机制
OVERVIEW
记忆架构全景速览表
下表总结了 Agent 多层级记忆体系的核心特征。这一分类借鉴了认知科学中的人类记忆模型(Atkinson-Shiffrin 模型)[5],并结合 LLM Agent 的工程实践进行了适配。
| 记忆层级 | 认知科学对应 | 技术实现 | 存储容量 | 访问延迟 | 代表框架 |
|---|---|---|---|---|---|
| 感知记忆 | 感觉记忆 (Sensory Memory) | 当前 Turn 的原始输入 Token 流 | 受上下文窗口限制 | 即时 | 所有 LLM |
| 工作记忆 | 工作记忆 (Working Memory) | System Prompt + KV Cache + 滑动窗口 | 4K—1M tokens | 即时 | MemGPT Core Memory[1] |
| 长期记忆 | 长期记忆 (Long-term Memory) | 向量数据库 / 知识图谱 / 结构化存储 | 理论无限 | 检索依赖 | Mem0[3], Zep/Graphiti[4] |
| 外部知识库 | 外部辅助记忆(书籍/笔记) | RAG 管线 / 文档存储 / API 调用 | 无限 | 高(I/O 依赖) | LangChain RAG, LlamaIndex |
+--------------------------------------------------------------+
| Agent 多层级记忆架构 |
+--------------------------------------------------------------+
| |
| [感知记忆] 当前输入 Token 流 ─────────────────┐ |
| | | |
| v v |
| [工作记忆] System Prompt + KV Cache 注意力机制 |
| | (Core Memory Block) (即时读写) |
| | |
| | ── 写入/检索 ──> [长期记忆] |
| | - 向量数据库 (嵌入相似度检索) |
| | - 知识图谱 (结构化关系推理) |
| | - 对话摘要 (压缩存储) |
| | |
| | ── RAG 检索 ──> [外部知识库] |
| - 文档/代码库 |
| - API / 工具调用结果 |
+--------------------------------------------------------------+
编辑点评
四层记忆体系的核心设计原则是按访问频率和重要性分级。工作记忆承载当前任务最关键的信息,长期记忆存储跨会话的持久知识,外部知识库提供按需检索的海量数据。这与计算机体系结构中的 L1/L2/L3 Cache + 主存 + 磁盘的分层逻辑完全一致——MemGPT[1]的论文标题"Towards LLMs as Operating Systems"正是这一类比的最佳注脚。