深度研报 · Agent 记忆管理

Agent 记忆管理:多层级记忆机制设计全景

从短期上下文到长期知识的建模、存储与检索优化 · 工业框架与学术前沿深度拆解 · 多 Agent 共享记忆协作机制

4 记忆层级
6 工业框架
7 前沿论文
18 参考文献
编辑洞察:截至 2026 年 3 月,Agent 记忆管理正经历从"简单上下文拼接"到"类操作系统级虚拟内存"的范式跃迁。三条核心研究主线清晰可辨:(1) 记忆架构层级化——受认知科学启发,工业界和学术界正在构建感知记忆、工作记忆、长期记忆、外部知识库四层分离架构,MemGPT/Letta 的"LLM-as-OS"范式[1]是这一方向的标志性工作;(2) 记忆从被动存储走向主动管理——A-MEM[2]、Mem0[3] 等系统让 Agent 自主决定记忆的写入、更新、链接与遗忘,而非依赖固定规则;(3) 检索机制从向量相似度走向结构化推理——知识图谱记忆(Graphiti/Zep[4])和时序感知检索正在取代纯向量数据库方案,以支持多跳推理和因果关系追踪。

本报告从 Agent 记忆管理的基础架构出发,系统梳理四层记忆体系的设计原理,深入拆解 KV Cache 优化、向量检索、知识图谱存储、记忆压缩等核心技术,覆盖 MemGPT/Letta、LangChain、AutoGen、Claude Memory、Mem0 等工业框架的实现方案,并解读 Generative Agents、Reflexion、A-MEM 等学术前沿论文。三个研究主题值得关注:

OVERVIEW

记忆架构全景速览表

下表总结了 Agent 多层级记忆体系的核心特征。这一分类借鉴了认知科学中的人类记忆模型(Atkinson-Shiffrin 模型)[5],并结合 LLM Agent 的工程实践进行了适配。

记忆层级 认知科学对应 技术实现 存储容量 访问延迟 代表框架
感知记忆 感觉记忆 (Sensory Memory) 当前 Turn 的原始输入 Token 流 受上下文窗口限制 即时 所有 LLM
工作记忆 工作记忆 (Working Memory) System Prompt + KV Cache + 滑动窗口 4K—1M tokens 即时 MemGPT Core Memory[1]
长期记忆 长期记忆 (Long-term Memory) 向量数据库 / 知识图谱 / 结构化存储 理论无限 检索依赖 Mem0[3], Zep/Graphiti[4]
外部知识库 外部辅助记忆(书籍/笔记) RAG 管线 / 文档存储 / API 调用 无限 高(I/O 依赖) LangChain RAG, LlamaIndex
  +--------------------------------------------------------------+
  |                    Agent 多层级记忆架构                         |
  +--------------------------------------------------------------+
  |                                                              |
  |  [感知记忆]  当前输入 Token 流 ─────────────────┐             |
  |       |                                        |             |
  |       v                                        v             |
  |  [工作记忆]  System Prompt + KV Cache      注意力机制          |
  |       |      (Core Memory Block)           (即时读写)         |
  |       |                                                      |
  |       | ── 写入/检索 ──> [长期记忆]                            |
  |       |                  - 向量数据库 (嵌入相似度检索)           |
  |       |                  - 知识图谱 (结构化关系推理)             |
  |       |                  - 对话摘要 (压缩存储)                  |
  |       |                                                      |
  |       | ── RAG 检索 ──> [外部知识库]                           |
  |                          - 文档/代码库                         |
  |                          - API / 工具调用结果                   |
  +--------------------------------------------------------------+
      
编辑点评 四层记忆体系的核心设计原则是按访问频率和重要性分级。工作记忆承载当前任务最关键的信息,长期记忆存储跨会话的持久知识,外部知识库提供按需检索的海量数据。这与计算机体系结构中的 L1/L2/L3 Cache + 主存 + 磁盘的分层逻辑完全一致——MemGPT[1]的论文标题"Towards LLMs as Operating Systems"正是这一类比的最佳注脚。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录