小米 MiMo 负责人罗福莉:Agent 时代的出路不是更便宜的 Token
罗福莉指出全球算力跟不上 Agent 时代的 Token 消耗,以 OpenClaw 为例说明第三方框架上下文管理低效(单次请求超 10 万 Token),呼吁行业通过更高效的框架和模型协同进化解决问题,而非盲目打价格战。
查看原文核心要点
2026 年 4 月 5 日,小米 MiMo 团队负责人罗福莉在 X 平台发声,揭示了一个被行业有意无意忽视的结构性矛盾:Agent 场景下 Token 消耗量正以远超算力供给的速度膨胀,全球算力瓶颈已非价格战所能绕开。她以第三方推理框架 OpenClaw 为例,指出单次 Agent 请求的上下文长度已轻松突破 10 万 Token 量级,现有的粗放式上下文管理方案造成了巨大的算力浪费。罗福莉呼吁行业将精力从「把 Token 做得更便宜」转向「让 Agent 用 Token 的方式更聪明」,即框架与模型的协同进化。
原文 + 中文翻译
原文: "Global compute can't keep up with token consumption in the Agent era. Take OpenClaw as an example — single agent request context easily exceeds 100K tokens. The solution isn't cheaper tokens, it's smarter frameworks and co-evolution of models and infra."
翻译: "全球算力无法跟上 Agent 时代的 Token 消耗速度。以 OpenClaw 为例,单个 Agent 请求的上下文轻松超过 10 万 Token。解决方案不是更便宜的 Token,而是更智能的框架与模型和基础设施的协同进化。"
深度解读
1. Agent 时代算力消耗的结构性危机
罗福莉的观察直击当前 AI 行业最热门但也被最严重误读的议题——大模型 API 价格战。表面上看,Anthropic、OpenAI、DeepSeek 等头部玩家在过去 18 个月内将 Token 单价压低了数十倍,业界欢呼「Token 成本进入白菜价时代」。但罗福莉指出,这个逻辑在 Agent 场景下彻底失效。传统 LLM 调用是「问答式」的,输入输出相对对称;而 Agent 调用是多步骤的、工具增强的,每个步骤都会携带完整的历史上下文到下一层推理。OpenClaw 这类第三方框架在编排 Agent 流程时,往往无法做到精细的上下文压缩和剪枝,导致每一次工具调用都「背着」整个对话历史。以 10 万 Token 的单次请求量计算,即使 Token 单价降至 $0.1/M,在规模化部署时成本仍然是惊人的。
2. 小米 MiMo 的战略意图:从「跟随」到「定义框架」
罗福莉的发言并非单纯的技术批评,其背后有清晰的公司战略诉求。小米在大模型领域属于国内第二梯队玩家,MiMo-8B 和 MiMo-72B 在开源社区取得了一定声量,但在参数规模上与 DeepSeek-V3、Qwen3 等头部模型存在差距。面对参数量竞争的红海,罗福莉选择了一个更聪明的话语切入点:与其在模型 scale 上硬碰硬,不如在 Agent 框架侧建立技术壁垒。这也是小米 AI 战略的特色——不追求「最大最强」,而是追求「端侧落地最有效」。通过在 Agent 推理框架层面发声,小米可以在开发者生态中建立影响力,绕开基础模型参数的正面竞争。
3. 行业格局的潜在转变:从「模型即服务」到「系统即服务」
罗福莉的「框架与模型协同进化」论,实际上在挑战当前行业的主流叙事——一切竞争都围绕「模型能力」展开。但 Agent 时代的真正瓶颈,或许不在于模型的「大脑」够不够聪明,而在于整个系统的「消化系统」是否高效。这意味着推理框架层(如 OpenClaw、LangChain、AutoGen 的后继者)和推理引擎层(如 vLLM、TGI 的 Agent 优化版本)将不再是基础设施配角,而是核心技术竞争力的载体。如果这个判断正确,未来 12-18 个月内,头部云厂商和模型公司之间的竞争将更多转移到「谁能提供端到端 Agent 效率优化方案」,而非简单「M tokens 的价格是多少」。
值得关注
- 小米 MiMo 的框架产品规划: 罗福莉是否会推动 MiMo 团队发布与自家模型绑定的 Agent 推理框架?观察时间窗口为 2026 年 Q3 小米开发者大会。
- OpenClaw 的技术改进路线: 作为被直接点名的第三方框架,OpenClaw 团队是否会公开回应上下文管理的低效问题?关注其 GitHub 仓库近期的 commit 记录和 issue 区讨论。
- 上下文压缩技术在 Agent 场景的商用进展: 微软、Anthropic 和 Google 都在研发「选择性上下文」(Selective Context)技术,罗福莉的批评会否加速这些厂商推出 Agent 专用上下文优化 API。
- 价格战的拐点信号: 如果 Token 价格战的受益者在 Agent 场景下仍面临成本失控,风险投资方是否会重新评估「Token 低价获客」模式的可持续性,转向押注 infra 层创新。
- 小米与 DeepSeek 的生态博弈: DeepSeek 在开源领域已建立了强大的 Agent 编排能力口碑,小米若要差异化竞争,是否会在端侧 Agent(手机 / IoT 设备上运行的 Agent)框架上寻找突破口。
信源行:
• 原文链接:https://x.com/dotey/status/2040854097838952598
• 背景报道:The Information 2025 年 12 月报道《AI Agents Are Burning Through Compute Faster Than Expected》;a16z 2026 年 2 月报告《State of Agentic AI Infrastructure》均涉及 Agent 场景算力消耗的结构性问题。
• 相关背景:罗福莉此前在字节跳动 AI Lab 工作,2025 年中加入小米;小米 MiMo 系列模型最早于 2025 年 3 月开源发布。