Anthropic:Claude 平台推出 Advisor 策略,Opus 做顾问大幅降低 Agent 成本
Anthropic 将 Advisor 策略引入 Claude Platform:以 Opus 作为顾问、Sonnet 或 Haiku 作为执行者,在 SWE-bench Multilingual 上比单独 Sonnet 高 2.7 个百分点,同时每任务成本降低 11.9%。开发者只需在 Messages API 中添加 advisor 工具即可启用。
查看原文核心要点
2026 年 4 月 9 日,Anthropic 正式将 Advisor 策略引入 Claude Platform。该策略的核心思路是以 Opus 模型担任「顾问」角色,为 Sonnet 或 Haiku 等轻量级执行者提供高层级决策指引。在 SWE-bench Multilingual 基准测试中,Advisor 架构比单独使用 Sonnet 提升 2.7 个百分点,同时每任务成本下降 11.9%。开发者只需在 Messages API 中声明 advisor 工具即可启用,无需修改上层业务逻辑。这是大模型领域首个公开的「强模型指导弱模型」分层推理方案,标志着 Claude 3 系列模型在能力分层与协同推理上进入产品化阶段。
原文 + 中文翻译
原文:翻译:"Introducing Advisor — use Opus as a strategic advisor for Sonnet or Haiku agents, routing high-level decisions to Opus while letting your agent handle execution. On SWE-bench Multilingual, Advisor outperforms Sonnet alone by 2.7 points while reducing cost per task by 11.9%."
「正式推出 Advisor——以 Opus 作为 Sonnet 或 Haiku Agent 的战略顾问,将高层决策路由给 Opus,同时由您的 Agent 处理执行层面。在 SWE-bench Multilingual 上,Advisor 相比单独使用 Sonnet 的表现提升 2.7 个百分点,同时每任务成本降低 11.9%。」
深度解读
分层推理:从「单模型全能」到「专模型协同」
Advisor 策略的本质是将 Claude 3 系列的 Opus、Sonnet、Haiku 三层模型能力进行功能解耦。Opus 定位为「战略规划层」,负责分析任务目标、判断执行路径、处理边缘 case;Sonnet/Haiku 则退居「战术执行层」,负责代码生成、工具调用等具体操作。这与传统的「强模型直接完成任务」模式形成鲜明对比——后者在复杂推理场景中往往让最强模型从头到尾处理所有中间步骤,造成 token 消耗过高的问题。Advisor 则通过「决策-执行分离」实现了资源优化。
MoE 架构思想的工程落地
Anthropic 此举可视为对混合专家(MoE)理念的工程化实践。虽然 Claude 3 系列并非严格意义上的 MoE 模型,但 Advisor 策略在系统层面模拟了 MoE 的核心逻辑:不同能力的请求路由到最合适的模型处理,而非让单一模型承担全部认知负荷。2.7 个百分点的准确率提升说明强模型的「指导介入」确实能改善最终输出质量,而 11.9% 的成本降幅则证明「按需调用强模型」比「全程使用强模型」更具经济效率。
对 Agent 应用生态的战略意义
对于正在构建企业级 Agent 的开发者而言,Advisor 策略解决了一个核心痛点:如何在成本可控的前提下保证复杂任务的执行质量。此前的行业实践倾向于「用强模型处理一切」或「用弱模型降低成本但牺牲质量」二选一。Advisor 提供了第三路径——用弱模型完成大部分执行,只在关键决策节点引入强模型介入。这对 SWE-bench Multilingual 这类涉及多语言代码理解、复杂任务拆解的场景尤为有价值,解释了为何 Anthropic 首选该基准作为验证集。
benchmark 数据的经济学解读
2.7% 的准确率提升看似温和,但需结合 11.9% 的成本降幅综合考量。在 Agent 场景中,成本与准确率往往呈非线性关系——为提升 2-3 个百分点的准确率,业界通常需要付出 30-50% 的额外 token 消耗。Advisor 实现了「准确率提升 + 成本下降」的双赢局面,这表明分层推理策略在 Agent 任务上具有显著的帕累托改进空间。该数据将成为 Anthropic 向企业客户推广 Claude Platform 的核心卖点。
值得关注
- API 可用性时间线:需追踪 advisor 工具在 Messages API 中的正式上线日期,以及是否同步支持 streaming 模式(对 Agent 实时响应至关重要)。
- 基准测试扩展:Anthropic 是否计划在其他行业基准(如 TAU-bench、OSWorld)上公布 Advisor 性能数据,以验证该策略的通用性而非仅适用于代码场景。
- 多轮对话场景:Advisor 在涉及超过 5 轮对话的复杂 Agent 任务中的成本控制效果如何,是否会出现「多次调用 Opus 导致成本反而上升」的反效果。
- Haiku 作为执行者:当前公告主要测试了 Sonnet 作为执行者,若 Haiku 搭配 Opus 能实现类似成本降幅,将大幅扩展低预算开发者群体对 Agent 的使用。
- 竞品跟进:OpenAI 是否会在 GPT 系列中推出类似「战略顾问」模式,特别是 GPT-4o 与 GPT-4o-mini 的协同推理方案。
信源行:
原文链接:x.com/claudeai/status/2042308622181339453
背景报道:Anthropic 官方文档 - Advisor Strategy|The Verge - Anthropic's new Advisor strategy breaks down AI agent costs|Hacker News 社区讨论