← 返回资讯
产品发布 @dotey 2026-04-07

宝玉:Claude Mythos Preview 跑分断崖式领先,SWE-bench 93.9%、USAMO 97.6%

Anthropic 发布 Claude Mythos Preview 并宣布 Project Glasswing。对比 Opus 4.6,SWE-bench 从 80.8% 升至 93.9%,USAMO 从 42.3% 飙至 97.6%,在几乎所有基准上以两位数优势领先 GPT-5.4 和 Gemini 3.1 Pro。

查看原文
AI 资讯解读
```html

核心要点

2026 年 4 月 7 日,Anthropic 发布 Claude Mythos Preview 并同步宣布 Project Glasswing 项目。在 SWE-bench 软件工程基准上从上代 Opus 的 80.8% 跃升至 93.9%(+13.1pp),在 USAMO 数学奥赛基准上从 42.3% 飙升至 97.6%(+55.3pp),在几乎所有评测维度以两位数优势碾压 GPT-5.4 和 Gemini 3.1 Pro,标志着 Anthropic 在 Agent 级推理能力上实现断崖式跨越。

原文 + 中文翻译

原文: "Anthropic releases Claude Mythos Preview with Project Glasswing. SWE-bench: 80.8% → 93.9%. USAMO: 42.3% → 97.6%. Leading GPT-5.4 and Gemini 3.1 Pro by double-digit margins across nearly all benchmarks."

翻译: "Anthropic 发布 Claude Mythos Preview 并推出 Project Glasswing。SWE-bench:80.8% → 93.9%。USAMO:42.3% → 97.6%。在几乎所有基准上以两位数优势领先 GPT-5.4 和 Gemini 3.1 Pro。"

深度解读

一、Agent 能力的关键一跃:数学推理 + 代码执行双突破

USAMO 基准从 42.3% 飙至 97.6% 是本次发布最惊人的数字。USAMO(USA Math Olympiad)代表极高难度的高中数学竞赛题,需要多步证明、构造性推理和严密逻辑——这是 AI 领域长期公认的"硬骨头"。此前大多数模型在该基准上徘徊在 30-50% 区间,97.6% 意味着 Claude Mythos Preview 几乎能完美解决此类问题,标志着 LLM 在数学证明领域的根本性突破。这与 Anthropic 此前在 o3 系列模型上展现的 ARC-AGI 突破一脉相承,暗示 Anthropic 正在将"推理时计算"(inference-time compute)技术系统化地迁移到生产级产品。

二、SWE-bench 93.9% 的工程含义:从"能写代码"到"能修生产级 Bug"

SWE-bench 是真实世界 GitHub Issue 修复基准,93.9% 的成绩意味着模型能够自动解决绝大多数真实软件工程问题。80.8% 到 93.9% 的跨越(+13.1pp)在如此高的基数上极为罕见,反映出 Claude Mythos Preview 在长程代码理解、多文件依赖推理和 Bug 定位能力上的质变。这对 AI 编程助手市场(Cursor、GitHub Copilot 等)将形成强力冲击——如果一个 AI 能独立解决 93.9% 的真实 Issue,企业内部 DevOps 工作流将被根本性改写。

三、"Project Glasswing"透露的战略意图:多模态 Agent 平台

Project Glasswing 的命名暗示这并非单次模型更新,而是一个持续性平台项目。Anthropic 此前已公开其 Agent 工具使用能力和 Computer Use 方向,Glasswing 可能代表其面向企业的 Agent 部署架构。结合 97.6% 的 USAMO 表现,Anthropic 似乎在构建一个"推理能力+代码执行+工具调用"三位一体的 Agent 平台,意图在 OpenAI 的 Agents SDK 和 Google 的 Agent2Agent 协议之外建立自己的生态护城河。

四、竞争格局:Anthropic 正在重置"顶级模型"的定义标准

若 GPT-5.4 确为 OpenAI 未来版本(截至 2025 年 Q1 尚未发布),Anthropic 在基准测试上的大幅领先意味着 AI 军备竞赛进入新阶段:OpenAI 的 GPT-5 系列尚未正式发布即面临被拉开差距的压力,而 Google Gemini 的多模态优势也遭到代码和推理能力的反向超越。这将加速各大厂发布紧急更新的节奏,同时让"SWE-bench 90%+"成为顶级模型的新准入门槛。

值得关注

信源行:原文链接 @dotey (X/Twitter)|背景报道:Anthropic 2024 年 12 月 o3 模型发布公告、OpenAI GPT-5 进展追踪(The Verge)、SWE-bench 官方 Leaderboard(GitHub @princeton-nlp)

```
本解读由 AI 自动生成,仅供参考。请以原文为准。