深度研报 · Claude Sonnet 4.6 · 2026.03

Claude Sonnet 4.6 深度解读
编码偏好率 70%、OSWorld 94%、1M 上下文

Anthropic 发布 Claude Sonnet 4.6,在编码、指令遵循和长上下文处理方面实现全面提升。本报告解析其核心能力、基准测试、定价策略与对开发者的实际意义。

70%
偏好率 vs Sonnet 4.5
94%
OSWorld 保险基准
1M
上下文窗口
$3/$15
输入/输出定价
核心论断:Claude Sonnet 4.6 是 Anthropic 对中端模型的一次重大迭代——在保持 Sonnet 系列高性价比定位的同时,编码偏好率达到 70%(相比 Sonnet 4.5),甚至在 59% 的情况下被用户偏好于 Opus 4.5。1M 上下文窗口、上下文压缩 Beta、自适应思考等特性使其成为日常开发和 Agent 场景的理想选择。

Sonnet 4.6 延续了 Anthropic"以中端模型驱动主流采用"的战略。它并非简单的版本号递增——在多个核心基准上实现了显著提升,同时引入了上下文压缩(context compaction)等面向 Agent 长时运行场景的关键特性。[1]

本报告从四个维度解析 Sonnet 4.6:核心能力(编码、指令遵循、设计改进)、基准测试(与 Sonnet 4.5 / Opus 4.5 / GPT 系列的对比)、安全与定价(安全评级与成本分析)、对开发者的意义(API 迁移、最佳实践)。[1]

§1

核心能力:编码、指令遵循与设计改进

Sonnet 4.6 在开发者最关注的维度上实现全面提升

Sonnet 4.6 的核心设计目标是成为开发者日常工作的首选模型。Anthropic 在编码质量、指令精确性和输出格式三个方面进行了集中优化。[1]

1M 上下文窗口:Sonnet 4.6 支持 100 万 token 的上下文窗口,可以一次性处理大型代码库、长文档或复杂的多轮对话。结合上下文压缩功能,Agent 可以在超长任务中保持连贯性而不丢失关键信息。[1]
§2

基准测试:全面对比与关键指标

Sonnet 4.6 在多项基准上超越前代,部分指标追平旗舰模型

Anthropic 公布了 Sonnet 4.6 在多个标准基准上的表现。以下是与 Sonnet 4.5 和竞品模型的关键对比。[1]

70%
编码偏好率 vs Sonnet 4.5
59%
编码偏好率 vs Opus 4.5
94%
OSWorld 保险基准
1M
上下文窗口 (tokens)

Computer Use:OSWorld 稳步提升

Sonnet 4.6 在 Computer Use(计算机操作)任务上延续了 Sonnet 系列的稳步进展。在 OSWorld 基准测试中,保险类任务达到 94% 的准确率,展示了模型在 GUI 交互、表单填写和流程操作方面的成熟度。[1]

基准Sonnet 4.5Sonnet 4.6变化
编码偏好率(vs 前代)基线70%显著提升
编码偏好率(vs Opus 4.5)59%超越旗舰
OSWorld 保险基准94%稳步提升
上下文窗口200K1M5x 扩展
输入定价$3/MTok$3/MTok持平
输出定价$15/MTok$15/MTok持平
关键发现:Sonnet 4.6 在编码任务上的表现已经超过了部分使用场景下的 Opus 4.5,而价格仅为后者的 60%($3/$15 vs $5/$25)。对于编码为主的工作流,Sonnet 4.6 是目前性价比最高的选择。[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录