Opus 4.6 不只是参数量的升级。它代表了 Anthropic 在三个方向上的突破:上下文规模(1M context + 76% 8-needle MRCR)、推理深度(GDPval-AA 和 Terminal-Bench 2.0 双料冠军)、Agent 基础设施(Agent Teams + Effort Controls)。[1]
本报告从四个维度展开:核心能力(1M 上下文、128K 输出、长文档能力)、基准测试对比(vs GPT-5.2、Gemini、前代 Opus)、新功能(Agent Teams、Effort Controls)、对开发者的意义(选型建议、迁移方案)。[1]
核心能力:1M 上下文与 128K 输出
Opus 系列首次获得百万级上下文,输出 token 扩展至 128K
Opus 4.6 最引人注目的升级是上下文窗口从 200K 扩展到 1M——这是 Opus 系列首次支持百万级上下文。同时,最大输出 token 从 32K 扩展到 128K,使其能够一次性生成完整的长文档、大型代码文件或详细的分析报告。[1]
长上下文能力:MRCR 基准的巨大领先
在 8-needle 1M MRCR(Multi-Round Coreference Resolution)基准上,Opus 4.6 达到 76%,而同期发布的 Sonnet 4.6 仅为 18.5%。这一差距表明,Opus 4.6 在处理超长上下文中的多重引用和信息检索方面具有质的飞跃。[1]
一次性输入数百页的法律文档、技术手册或代码库,模型能准确定位和交叉引用分散在不同位置的关键信息。76% MRCR 意味着模型在 100 万 token 中同时追踪 8 条线索时,四分之三以上的情况能正确关联。[1]
128K 输出 token 意味着模型可以一次性生成约 10 万字的中文内容。这对于撰写完整的研究报告、生成大型代码文件、翻译长篇文档等场景具有变革性意义——无需再将任务切分为多次调用。[1]
基准测试对比:超越 GPT-5.2
GDPval-AA +144 Elo、Terminal-Bench 2.0 最高分、BigLaw 90.2%
Opus 4.6 在多个权威基准上展现了领先的推理能力,尤其在 GDPval-AA(通用推理)和 Terminal-Bench 2.0(终端操作)上取得了突破性成绩。[1]
| 基准 | Opus 4.5 | Opus 4.6 | GPT-5.2 | 领先情况 |
|---|---|---|---|---|
| GDPval-AA(通用推理) | — | 领先 | 基线 | +144 Elo |
| Terminal-Bench 2.0 | — | 最高分 | — | 同类最佳 |
| BigLaw(法律推理) | — | 90.2% | — | 领先 |
| 8-needle 1M MRCR | — | 76% | — | 同类最佳 |
| 上下文窗口 | 200K | 1M | — | 5x 扩展 |
| 最大输出 | 32K | 128K | — | 4x 扩展 |
| 定价(输入/输出) | $15/$75 | $5/$25 | — | 大幅降价 |
GDPval-AA:+144 Elo 的含义
在 GDPval-AA(GDP-validated Agent Arena)通用推理基准上,Opus 4.6 以 +144 Elo 超越 GPT-5.2。在 Elo 评分体系中,144 分的差距意味着 Opus 4.6 在随机对局中约有 70% 的胜率。这是一个显著的领先幅度,表明 Opus 4.6 在复杂推理任务中具有结构性优势。[1]
Terminal-Bench 2.0 与 BigLaw
Terminal-Bench 2.0 测试模型在终端环境中的操作能力——文件管理、命令行工具使用、脚本编写、调试等。Opus 4.6 取得了该基准的最高分,证明其作为 Agent 底座模型的实力。[1]
BigLaw 基准测试法律文档推理能力。Opus 4.6 达到 90.2% 的准确率,展示了模型在专业领域(法律条款解读、案例分析、合同审查)的深度推理能力。[1]