宝玉:LLM 是「缸中之脑」,Harness 为其装上眼耳手脚和记忆系统
宝玉用生动比喻解释 AI Agent 架构:LLM 是超强大脑但无法感知行动,Harness 赋予其输入输出、工具调用、容错和三层记忆系统。
查看原文核心要点
2026年4月7日,知名 AI 科技博主宝玉(@dotey)在 X 平台发布了一则关于 AI Agent 架构的深度解读。他以哲学经典「缸中之脑」比喻大语言模型(LLM)本质——拥有超强认知能力却困于虚无、无法与现实世界交互——进而系统阐释了「Harness」框架如何通过输入输出接口、工具调用、容错机制和三层记忆系统,为 LLM 构建感知世界、执行动作和积累经验的能力闭环。这一框架性解释对于理解当前 Agent 发展路径具有重要参考价值。
原文 + 中文翻译
原文:「LLM 是'缸中之脑'——它有极其强大的认知能力,但无法感知世界、无法采取行动。Harness 就是给它装上眼耳手脚和记忆系统。」
翻译:Large Language Model is like a "brain in a vat" — it possesses extraordinarily powerful cognitive capabilities but cannot perceive the world or take actions. The Harness framework equips it with eyes, ears, hands, feet, and a memory system.
原文:「Harness 包含四个核心组件:1) 输入/输出系统 2) 工具调用 3) 容错机制 4) 三层记忆系统(短期/中期/长期)。」
翻译:The Harness consists of four core components: 1) Input/Output system 2) Tool calling 3) Error handling 4) Three-tier memory system (short-term / medium-term / long-term).
深度解读
一、为什么「缸中之脑」是理解 LLM 的绝佳隐喻
「缸中之脑」(Brain in a Vat)是哲学家 Hilary Putnam 于1981年提出的思想实验,设想一个被剥离身体、浸泡在营养液中的大脑,通过电极与超级计算机连接,可能产生完全真实的「虚拟现实」体验。宝玉借用这一哲学框架来描述 LLM 的现状,精准击中了当前 AI 发展的核心矛盾:模型能力的天花板已经极高,但「无法行动」这一根本限制使其价值难以充分释放。GPT-4o、Claude 3.5 在推理、生成、上下文理解上已接近通用认知天花板,但它们本质上仍是「被动响应」的系统——给一个输入,它给一个输出,然后一切归零。没有持续性、没有执行路径、没有世界模型反馈。这正是 Agent 浪潮兴起的底层逻辑。
二、Harness 框架的工程化拆解:从哲学到代码
宝玉将「Harness」描述为给 LLM 装上「眼耳手脚和记忆系统」,这一比喻对应着明确的工程实现路径:
眼耳(输入/输出系统):赋予 Agent 感知多模态信息的能力,不仅仅是文本,还包括网页内容、API 返回、文件解析、屏幕截图等。当前主流方案是通过 Function Calling / Tool Use 协议实现结构化输入输出。
手脚(工具调用):让 LLM 能够调用外部工具——搜索、执行代码、操作 API、写文件、甚至控制其他软件。这是 Anthropic 的 Claude MCP(Model Context Protocol)和 OpenAI 的 GPTs Actions 正在争夺的标准高地。工具调用的设计质量直接决定了 Agent 的行动边界。
记忆系统(三层架构):这是最容易被人忽视但实际上最关键的组件。短期记忆(Short-term)对应单次会话中的上下文窗口;中期记忆(Medium-term)通常指跨会话的会话摘要或状态持久化;长期记忆(Long-term)则是向量数据库或知识图谱中存储的持久化知识。Memory 系统的设计直接影响 Agent 能否在多次交互中保持一致性、积累学习。
三、为什么这不仅是技术问题,更是商业策略战场
从 2025 年下半年开始,AI Agent 已从「概念讨论」进入「落地冲刺」阶段。OpenAI 推出 Operator、Anthropic 发布 Computer Use、各大云厂商纷纷推出 Agent 平台。在这一背景下,「Harness」框架的定义权正在成为兵家必争之地——谁的标准成为事实标准,谁就能在 Agent 生态中占据类似「操作系统」的地位。宝玉的解读实际上揭示了一个核心事实:当前 LLM 厂商之间的竞争,已经从「模型性能」蔓延到「Agent 基础设施」层面。工具调用的标准化、记忆系统的持久化方案、容错重试的策略设计,这些「 Harness 层」的问题将成为未来 1-2 年内行业分化的关键变量。
值得关注
- Anthropic MCP 生态扩张速度:MCP(Model Context Protocol)作为 Agent 连接工具的标准协议,其社区采用率和实际落地项目数量将是判断「Harness 标准化」进程的核心指标。预计2026年下半年会有第一波大规模生态数据披露。
- OpenAI Operator 与 Claude Computer Use 的直接对比评测:两者代表了「工具调用」能力的两条技术路线——前者偏 API 集成,后者偏操作系统级控制。用户在真实任务中的完成率差异将影响开发者的技术选型。
- 长期记忆层的技术突破:当前三层记忆系统中,长期记忆(持久化知识存储)的检索精度和幻觉控制仍是痛点。RAG(检索增强生成)与 Memory 系统的深度整合方案值得关注,尤其是 Vector Database 赛道的融资和并购动态。
- 开源 Harness 框架的崛起:Dify、LangGraph、AutoGen 等开源项目正在降低 Agent 开发门槛。如果宝玉等 KOL 的框架解读能够带动开源社区围绕「Harness 四组件」形成共识规范,可能催生下一个现象级开源项目。
- 企业级 Agent 落地案例的规模化验证:2026年Q2-Q3将迎来第一波企业 Agent 项目的 6 个月运营数据,涵盖「容错机制」的实际表现和「三层记忆」的维护成本,这些数据将反向推动 Harness 框架的设计迭代。
信源行:
原文链接:@dotey (X/Twitter) — 2026年4月7日
背景报道:
• Anthropic 官方 MCP 协议文档
• Wired — The Rise of AI Agents (2025年行业趋势分析)