Anthropic 推出「顾问工具」API:便宜模型干活,贵模型当军师
Anthropic 发布 advisor tool API,让 Sonnet/Haiku 作为执行者跑任务,遇到难题时请 Opus 出主意。Sonnet+Opus 在 SWE-bench 多语言测试上提升 2.7 个百分点且成本降 11.9%,Haiku+Opus 在 BrowseComp 从 19.7% 跳至 41.2%。
查看原文核心要点
2026 年 4 月 9 日,Anthropic 正式发布「advisor tool」API,正式将「廉价执行者 + 昂贵军师」的分层推理架构产品化。小模型(Sonnet/Haiku)负责跑任务,遇到难题时通过 tool 调用机制向 Opus 请示决策建议。在 SWE-bench 多语言测试中,Sonnet+Opus 组合比单用 Sonnet 提升 2.7 个百分点,API 成本降低 11.9%;而 Haiku+Opus 在 BrowseComp 基准上从 19.7% 暴涨至 41.2%,几乎翻倍。这一方案意味着企业可以用更低的基础算力成本,换取接近 Opus 单模型的效果,对现有 API 定价体系形成结构性冲击。
原文 + 中文翻译
原文:claude-code@anthropic.com announced: advisor tool API — "cheap model does the work, expensive model is the advisor." Sonnet+Opus achieves +2.7% on multilingual SWE-bench with 11.9% lower cost. Haiku+Opus jumps from 19.7% to 41.2% on BrowseComp.
翻译:「便宜模型干活,昂贵模型当顾问」——Anthropic 工程师通过代码助手公告了这一 API:Sonnet+Opus 在多语言 SWE-bench 上提升 2.7 个百分点,成本降低 11.9%;Haiku+Opus 在 BrowseComp 上从 19.7% 跳升至 41.2%。
深度解读
1. 从「Agent 架构」到「顾问架构」的产品化跃迁
过去一年,AI 行业的主流 Agent 框架普遍采用「单一强模型 + 外部工具」模式,即让 GPT-4o 或 Claude 3.5 Opus 等旗舰模型直接执行任务。这种架构在效果上有保障,但成本极高,每次 API 调用都是旗舰模型在跑。Anthropic 的 advisor tool 打破了这一范式——它将推理决策分层:执行层交给成本低 5-10 倍的 Sonnet/Haiku,策略层由 Opus 提供「元认知」层面的指导。两层之间通过 tool 调用机制连接,本质上是把「反思(reflection)」能力从模型内部抽离为独立服务。这意味着 AI 应用开发者可以在更细颗粒度上做成本控制,而不是简单地做「用还是不用 Opus」的选择。
2. Haiku+Opus 的 BrowseComp 暴涨暗示了什么
一个值得注意的现象是:Haiku+Opus 在 BrowseComp 上 21.5 个百分点的提升幅度,远超 Sonnet+Opus 在 SWE-bench 上的 2.7 个百分点。这种非对称性暗示 advisor tool 的效果与任务类型强相关。在需要大量浏览、检索、多步推理的复合任务上(BrowseComp 正是此类),执行层模型的「视野局限」更容易被 Opus 的战略建议所弥补——Opus 充当了「导航仪」,告诉 Haiku 什么时候该扩大搜索范围、什么时候该切换策略。相比之下,SWE-bench 本身已是相对结构化的代码任务,Haiku 本身的基线已经不够高,提升空间受限于代码理解的硬性瓶颈。
3. 对定价体系的潜在冲击
如果 advisor tool 成为主流用法,开发者会倾向于将 Opus 从「执行者」降级为「顾问」。这意味着 Anthropic 的 Opus API 调用量可能上升,但每单位任务的收入会下降(因为原来需要多次 Opus 调用完成的任务,现在只需要一次「建议」)。反过来,Sonnet/Haiku 的调用量会大幅上涨。这种结构性变化可能迫使 Anthropic 重新调整各层模型的定价策略,或者推出新的分级服务(如「Opus-Advisor」专属 SKU)。对于 OpenAI、Google 等竞争对手而言,这也是一个压力——如果分层推理能以更低成本达到相近效果,单一强模型的溢价空间将被压缩。
值得关注
- API 文档与定价更新:Anthropic 官方文档尚未详细说明 advisor tool 的计费方式(是按 Opus 被调用的 token 数计费,还是打包为独立 SKU)。预计 4 月底前的更新会揭示这一信息,直接影响开发者的迁移决策。
- OpenAI 的跟进速度:GPT-4o 是否会推出类似的「分层推理」API?考虑到 Sam Altman 近期多次强调「成本下降」的重要性,OpenAI 极可能在 Q2 内发布对标产品,这将是一场分层推理 API 的平台之战。
- SWE-bench Full 榜单变化:当前数据仅来自「多语言」子集,正式版 SWE-bench(Python 主战场)的提升幅度尚不清楚。如果 Sonnet+Opus 能稳定超过 Opus 单模型,将彻底改变代码助手市场的竞争格局。
- Haiku+Opus 的延迟瓶颈:21.5% 的效果提升是否以延迟增加为代价?两次模型调用的串行结构可能导致端到端响应时间翻倍。如果 Anthropic 能通过异步批处理或流式建议机制优化延迟,将是该产品的关键竞争优势。
- 企业客户的采用案例:Anthropic 此前披露的合作伙伴(如 Notion、Ramp)是否会优先迁移到 advisor tool 架构?这将验证该方案在真实业务场景中的成本效益比。
信源行:
原文链接:@dotey (X/Twitter)
背景报道:Anthropic 官方博客关于 Claude Code 的技术解析(Anthropic Docs);SWE-bench 官方 Leaderboard(swebench.com);BrowseComp 论文(browsecomp.github.io)