Anthropic 发布 Advisor 功能:Sonnet+Opus 顾问模式在 SWE-bench 多语言评测提升 2.7 个百分点
Anthropic 推出 Advisor 工具,Sonnet 在遇到困难决策时可调用 Opus 获取方案指导。评测显示 Sonnet+Opus 顾问在 SWE-bench 多语言上比纯 Sonnet 高 2.7 个百分点,且每任务成本降低 11.9%。
查看原文核心要点
2026年4月9日,Anthropic正式发布Advisor工具功能,允许其Sonnet模型在软件工程任务中遇到复杂决策时动态调用Opus模型获取方案指导。内部评测数据显示,Sonnet+Opus顾问组合在SWE-bench多语言基准上比纯Sonnet提升2.7个百分点,同时每任务成本实现11.9%的下降。这标志着Anthropic在MoE(混合专家)架构商业化落地和Agent间协作机制上迈出实质性一步。
原文 + 中文翻译
原文:"We’re excited to announce Advisor — Sonnet can now consult Opus when it needs help making a decision. Early results show Sonnet + Opus as advisor outperforms Sonnet alone by 2.7 points on SWE-bench Multilingual, while reducing cost per task by 11.9%."
翻译:"我们兴奋地宣布Advisor功能——Sonnet现在可以在需要帮助做决策时咨询Opus。早期结果显示,Sonnet + Opus作为顾问的表现比单独使用Sonnet在SWE-bench多语言上高出2.7分,同时每任务成本降低11.9%。"
深度解读
从"单打独斗"到"协作决策"的范式转变
Anthropic推出Advisor功能的核心逻辑在于解决单一模型的"能力天花板"问题。Sonnet作为快速响应型模型,在复杂软件工程决策面前可能面临推理深度不足的困境;而Opus作为旗舰级模型具备更强的推理和分析能力,但出于成本考量不宜全程启用。Advisor机制的本质是"按需调用"——Sonnet在关键决策节点动态向Opus请教,既保留了快速响应优势,又获得了深度推理加持。这种"快慢结合"的架构设计,实际上是对人类专家协作模式的数字化复刻。
评测数据揭示的双重价值
2.7个百分点的性能提升和11.9%的成本下降同时出现,这在AI系统优化中属于难得的双赢局面。传统观点认为能力提升往往伴随成本上升,但Advisor机制通过"精准求助"避免了Opus的过度使用。值得注意的是,评测基于SWE-bench Multilingual(多语言软件工程基准),这意味着该功能在真实世界的跨语言代码修复场景中已通过初步验证。对于需要处理全球化代码库的开发者而言,这一功能的实用性不言而喻。
对Agent生态的深远影响
Advisor的发布与近期大热的MCP(Model Context Protocol)协议形成协同效应。如果Sonnet能调用Opus,未来不同AI系统之间的协作接口标准化将变得至关重要。Anthropic此举可能推动"模型间API生态"的建立——允许不同厂商的模型通过协议层实现能力互补而非单纯竞争。对行业而言,这意味着AI系统的设计思路正从"打造全能模型"转向"构建模型协作网络"。
值得关注
- Claude Code IDE集成时间线:Advisor功能何时向开发者开放API接口,以及是否会优先集成到Claude Code IDE中,供实际软件工程师使用?
- Opus调用延迟问题:Sonnet在实时编码过程中调用Opus时,端到端响应延迟是否会影响开发者体验?这是决定该功能实用性的关键指标。
- 成本核算模式:Anthropic是否会针对Advisor场景推出新的计费方式?例如对"咨询调用"单独计价或打包进现有订阅计划?
- 其他模型组合可能性:除Sonnet+Opus外,Anthropic是否会开放Haiku作为轻量级顾问的组合?此举将决定Advisor生态的覆盖广度。
- 竞争对手响应:OpenAI的GPT-4o与o3组合、谷歌的Gemini系列是否会在未来数月内推出类似"模型协作"功能?这一领域的竞争将加速技术迭代。
信源行:本文内容综合自Anthropic官方X(原Twitter)账号发布的功能发布公告(2026-04-09)。背景报道可参考The Verge同期对"AI模型协作趋势"的专题报道,以及TechCrunch关于SWE-bench评测方法的介绍文章。相关链接:Anthropic官方推文