大模型 @dotey 2026-04-09

Anthropic 推出「顾问工具」API：便宜模型干活，贵模型当军师

Anthropic 发布 advisor tool API，让 Sonnet/Haiku 作为执行者跑任务，遇到难题时请 Opus 出主意。Sonnet+Opus 在 SWE-bench 多语言测试上提升 2.7 个百分点且成本降 11.9%，Haiku+Opus 在 BrowseComp 从 19.7% 跳至 41.2%。

查看原文

AI 资讯解读

核心要点

2026 年 4 月 9 日，Anthropic 正式发布「advisor tool」API，正式将「廉价执行者 + 昂贵军师」的分层推理架构产品化。小模型（Sonnet/Haiku）负责跑任务，遇到难题时通过 tool 调用机制向 Opus 请示决策建议。在 SWE-bench 多语言测试中，Sonnet+Opus 组合比单用 Sonnet 提升 2.7 个百分点，API 成本降低 11.9%；而 Haiku+Opus 在 BrowseComp 基准上从 19.7% 暴涨至 41.2%，几乎翻倍。这一方案意味着企业可以用更低的基础算力成本，换取接近 Opus 单模型的效果，对现有 API 定价体系形成结构性冲击。

原文 + 中文翻译

原文：claude-code@anthropic.com announced: advisor tool API — "cheap model does the work, expensive model is the advisor." Sonnet+Opus achieves +2.7% on multilingual SWE-bench with 11.9% lower cost. Haiku+Opus jumps from 19.7% to 41.2% on BrowseComp.

翻译：「便宜模型干活，昂贵模型当顾问」——Anthropic 工程师通过代码助手公告了这一 API：Sonnet+Opus 在多语言 SWE-bench 上提升 2.7 个百分点，成本降低 11.9%；Haiku+Opus 在 BrowseComp 上从 19.7% 跳升至 41.2%。

深度解读

1. 从「Agent 架构」到「顾问架构」的产品化跃迁

过去一年，AI 行业的主流 Agent 框架普遍采用「单一强模型 + 外部工具」模式，即让 GPT-4o 或 Claude 3.5 Opus 等旗舰模型直接执行任务。这种架构在效果上有保障，但成本极高，每次 API 调用都是旗舰模型在跑。Anthropic 的 advisor tool 打破了这一范式——它将推理决策分层：执行层交给成本低 5-10 倍的 Sonnet/Haiku，策略层由 Opus 提供「元认知」层面的指导。两层之间通过 tool 调用机制连接，本质上是把「反思（reflection）」能力从模型内部抽离为独立服务。这意味着 AI 应用开发者可以在更细颗粒度上做成本控制，而不是简单地做「用还是不用 Opus」的选择。

2. Haiku+Opus 的 BrowseComp 暴涨暗示了什么

一个值得注意的现象是：Haiku+Opus 在 BrowseComp 上 21.5 个百分点的提升幅度，远超 Sonnet+Opus 在 SWE-bench 上的 2.7 个百分点。这种非对称性暗示 advisor tool 的效果与任务类型强相关。在需要大量浏览、检索、多步推理的复合任务上（BrowseComp 正是此类），执行层模型的「视野局限」更容易被 Opus 的战略建议所弥补——Opus 充当了「导航仪」，告诉 Haiku 什么时候该扩大搜索范围、什么时候该切换策略。相比之下，SWE-bench 本身已是相对结构化的代码任务，Haiku 本身的基线已经不够高，提升空间受限于代码理解的硬性瓶颈。

3. 对定价体系的潜在冲击

如果 advisor tool 成为主流用法，开发者会倾向于将 Opus 从「执行者」降级为「顾问」。这意味着 Anthropic 的 Opus API 调用量可能上升，但每单位任务的收入会下降（因为原来需要多次 Opus 调用完成的任务，现在只需要一次「建议」）。反过来，Sonnet/Haiku 的调用量会大幅上涨。这种结构性变化可能迫使 Anthropic 重新调整各层模型的定价策略，或者推出新的分级服务（如「Opus-Advisor」专属 SKU）。对于 OpenAI、Google 等竞争对手而言，这也是一个压力——如果分层推理能以更低成本达到相近效果，单一强模型的溢价空间将被压缩。

值得关注

API 文档与定价更新：Anthropic 官方文档尚未详细说明 advisor tool 的计费方式（是按 Opus 被调用的 token 数计费，还是打包为独立 SKU）。预计 4 月底前的更新会揭示这一信息，直接影响开发者的迁移决策。
OpenAI 的跟进速度：GPT-4o 是否会推出类似的「分层推理」API？考虑到 Sam Altman 近期多次强调「成本下降」的重要性，OpenAI 极可能在 Q2 内发布对标产品，这将是一场分层推理 API 的平台之战。
SWE-bench Full 榜单变化：当前数据仅来自「多语言」子集，正式版 SWE-bench（Python 主战场）的提升幅度尚不清楚。如果 Sonnet+Opus 能稳定超过 Opus 单模型，将彻底改变代码助手市场的竞争格局。
Haiku+Opus 的延迟瓶颈：21.5% 的效果提升是否以延迟增加为代价？两次模型调用的串行结构可能导致端到端响应时间翻倍。如果 Anthropic 能通过异步批处理或流式建议机制优化延迟，将是该产品的关键竞争优势。
企业客户的采用案例：Anthropic 此前披露的合作伙伴（如 Notion、Ramp）是否会优先迁移到 advisor tool 架构？这将验证该方案在真实业务场景中的成本效益比。

信源行：
原文链接：@dotey (X/Twitter)
背景报道：Anthropic 官方博客关于 Claude Code 的技术解析（Anthropic Docs）；SWE-bench 官方 Leaderboard（swebench.com）；BrowseComp 论文（browsecomp.github.io）

本解读由 AI 自动生成，仅供参考。请以原文为准。