← 返回资讯
大模型 @dotey 2026-04-09

Anthropic 推出「顾问工具」API:便宜模型干活,贵模型当军师

Anthropic 发布 advisor tool API,让 Sonnet/Haiku 作为执行者跑任务,遇到难题时请 Opus 出主意。Sonnet+Opus 在 SWE-bench 多语言测试上提升 2.7 个百分点且成本降 11.9%,Haiku+Opus 在 BrowseComp 从 19.7% 跳至 41.2%。

查看原文
AI 资讯解读

核心要点

2026 年 4 月 9 日,Anthropic 正式发布「advisor tool」API,正式将「廉价执行者 + 昂贵军师」的分层推理架构产品化。小模型(Sonnet/Haiku)负责跑任务,遇到难题时通过 tool 调用机制向 Opus 请示决策建议。在 SWE-bench 多语言测试中,Sonnet+Opus 组合比单用 Sonnet 提升 2.7 个百分点,API 成本降低 11.9%;而 Haiku+Opus 在 BrowseComp 基准上从 19.7% 暴涨至 41.2%,几乎翻倍。这一方案意味着企业可以用更低的基础算力成本,换取接近 Opus 单模型的效果,对现有 API 定价体系形成结构性冲击。

原文 + 中文翻译

原文:claude-code@anthropic.com announced: advisor tool API — "cheap model does the work, expensive model is the advisor." Sonnet+Opus achieves +2.7% on multilingual SWE-bench with 11.9% lower cost. Haiku+Opus jumps from 19.7% to 41.2% on BrowseComp.

翻译:「便宜模型干活,昂贵模型当顾问」——Anthropic 工程师通过代码助手公告了这一 API:Sonnet+Opus 在多语言 SWE-bench 上提升 2.7 个百分点,成本降低 11.9%;Haiku+Opus 在 BrowseComp 上从 19.7% 跳升至 41.2%。

深度解读

1. 从「Agent 架构」到「顾问架构」的产品化跃迁

过去一年,AI 行业的主流 Agent 框架普遍采用「单一强模型 + 外部工具」模式,即让 GPT-4o 或 Claude 3.5 Opus 等旗舰模型直接执行任务。这种架构在效果上有保障,但成本极高,每次 API 调用都是旗舰模型在跑。Anthropic 的 advisor tool 打破了这一范式——它将推理决策分层:执行层交给成本低 5-10 倍的 Sonnet/Haiku,策略层由 Opus 提供「元认知」层面的指导。两层之间通过 tool 调用机制连接,本质上是把「反思(reflection)」能力从模型内部抽离为独立服务。这意味着 AI 应用开发者可以在更细颗粒度上做成本控制,而不是简单地做「用还是不用 Opus」的选择。

2. Haiku+Opus 的 BrowseComp 暴涨暗示了什么

一个值得注意的现象是:Haiku+Opus 在 BrowseComp 上 21.5 个百分点的提升幅度,远超 Sonnet+Opus 在 SWE-bench 上的 2.7 个百分点。这种非对称性暗示 advisor tool 的效果与任务类型强相关。在需要大量浏览、检索、多步推理的复合任务上(BrowseComp 正是此类),执行层模型的「视野局限」更容易被 Opus 的战略建议所弥补——Opus 充当了「导航仪」,告诉 Haiku 什么时候该扩大搜索范围、什么时候该切换策略。相比之下,SWE-bench 本身已是相对结构化的代码任务,Haiku 本身的基线已经不够高,提升空间受限于代码理解的硬性瓶颈。

3. 对定价体系的潜在冲击

如果 advisor tool 成为主流用法,开发者会倾向于将 Opus 从「执行者」降级为「顾问」。这意味着 Anthropic 的 Opus API 调用量可能上升,但每单位任务的收入会下降(因为原来需要多次 Opus 调用完成的任务,现在只需要一次「建议」)。反过来,Sonnet/Haiku 的调用量会大幅上涨。这种结构性变化可能迫使 Anthropic 重新调整各层模型的定价策略,或者推出新的分级服务(如「Opus-Advisor」专属 SKU)。对于 OpenAI、Google 等竞争对手而言,这也是一个压力——如果分层推理能以更低成本达到相近效果,单一强模型的溢价空间将被压缩。

值得关注

信源行:
原文链接:@dotey (X/Twitter)
背景报道:Anthropic 官方博客关于 Claude Code 的技术解析(Anthropic Docs);SWE-bench 官方 Leaderboard(swebench.com);BrowseComp 论文(browsecomp.github.io

本解读由 AI 自动生成,仅供参考。请以原文为准。