宝玉:Claude Mythos Preview 跑分断崖式领先,SWE-bench 93.9%、USAMO 97.6%
Anthropic 发布 Claude Mythos Preview 并宣布 Project Glasswing。对比 Opus 4.6,SWE-bench 从 80.8% 升至 93.9%,USAMO 从 42.3% 飙至 97.6%,在几乎所有基准上以两位数优势领先 GPT-5.4 和 Gemini 3.1 Pro。
查看原文核心要点
2026 年 4 月 7 日,Anthropic 发布 Claude Mythos Preview 并同步宣布 Project Glasswing 项目。在 SWE-bench 软件工程基准上从上代 Opus 的 80.8% 跃升至 93.9%(+13.1pp),在 USAMO 数学奥赛基准上从 42.3% 飙升至 97.6%(+55.3pp),在几乎所有评测维度以两位数优势碾压 GPT-5.4 和 Gemini 3.1 Pro,标志着 Anthropic 在 Agent 级推理能力上实现断崖式跨越。
原文 + 中文翻译
原文: "Anthropic releases Claude Mythos Preview with Project Glasswing. SWE-bench: 80.8% → 93.9%. USAMO: 42.3% → 97.6%. Leading GPT-5.4 and Gemini 3.1 Pro by double-digit margins across nearly all benchmarks."
翻译: "Anthropic 发布 Claude Mythos Preview 并推出 Project Glasswing。SWE-bench:80.8% → 93.9%。USAMO:42.3% → 97.6%。在几乎所有基准上以两位数优势领先 GPT-5.4 和 Gemini 3.1 Pro。"
深度解读
一、Agent 能力的关键一跃:数学推理 + 代码执行双突破
USAMO 基准从 42.3% 飙至 97.6% 是本次发布最惊人的数字。USAMO(USA Math Olympiad)代表极高难度的高中数学竞赛题,需要多步证明、构造性推理和严密逻辑——这是 AI 领域长期公认的"硬骨头"。此前大多数模型在该基准上徘徊在 30-50% 区间,97.6% 意味着 Claude Mythos Preview 几乎能完美解决此类问题,标志着 LLM 在数学证明领域的根本性突破。这与 Anthropic 此前在 o3 系列模型上展现的 ARC-AGI 突破一脉相承,暗示 Anthropic 正在将"推理时计算"(inference-time compute)技术系统化地迁移到生产级产品。
二、SWE-bench 93.9% 的工程含义:从"能写代码"到"能修生产级 Bug"
SWE-bench 是真实世界 GitHub Issue 修复基准,93.9% 的成绩意味着模型能够自动解决绝大多数真实软件工程问题。80.8% 到 93.9% 的跨越(+13.1pp)在如此高的基数上极为罕见,反映出 Claude Mythos Preview 在长程代码理解、多文件依赖推理和 Bug 定位能力上的质变。这对 AI 编程助手市场(Cursor、GitHub Copilot 等)将形成强力冲击——如果一个 AI 能独立解决 93.9% 的真实 Issue,企业内部 DevOps 工作流将被根本性改写。
三、"Project Glasswing"透露的战略意图:多模态 Agent 平台
Project Glasswing 的命名暗示这并非单次模型更新,而是一个持续性平台项目。Anthropic 此前已公开其 Agent 工具使用能力和 Computer Use 方向,Glasswing 可能代表其面向企业的 Agent 部署架构。结合 97.6% 的 USAMO 表现,Anthropic 似乎在构建一个"推理能力+代码执行+工具调用"三位一体的 Agent 平台,意图在 OpenAI 的 Agents SDK 和 Google 的 Agent2Agent 协议之外建立自己的生态护城河。
四、竞争格局:Anthropic 正在重置"顶级模型"的定义标准
若 GPT-5.4 确为 OpenAI 未来版本(截至 2025 年 Q1 尚未发布),Anthropic 在基准测试上的大幅领先意味着 AI 军备竞赛进入新阶段:OpenAI 的 GPT-5 系列尚未正式发布即面临被拉开差距的压力,而 Google Gemini 的多模态优势也遭到代码和推理能力的反向超越。这将加速各大厂发布紧急更新的节奏,同时让"SWE-bench 90%+"成为顶级模型的新准入门槛。
值得关注
- Claude Mythos 正式版时间窗口:Preview 通常在 4-8 周后发布正式版,需关注 Anthropic 官方博客是否跟进宣布Claude 4 系列更新或 Opus 继任者。
- Project Glasswing 的具体技术架构:是否支持 MCP(Model Context Protocol)协议、与现有 Claude Code / Claude Agent 工具链的整合方式,以及定价策略(企业版 vs 消费版)。
- OpenAI 的反制节奏:GPT-5 若已处于测试阶段,Anthropic 的领先窗口可能仅维持 2-3 个月;需关注 Sam Altman 近期动态和 OpenAI 发布日程。
- SWE-bench 93.9% 的实际工程验证:基准分数与真实企业场景仍有差距,建议等待 GitHub 上开源社区的独立实测(如 @sw一人、@evalplus 等评测账号)。
- Google Gemini 3.1 Ultra 的跟进策略:Gemini 团队是否会针对代码和推理专项优化,以及 Google DeepMind 是否有类似 Project Glasswing 的 Agent 平台计划。
信源行:原文链接 @dotey (X/Twitter)|背景报道:Anthropic 2024 年 12 月 o3 模型发布公告、OpenAI GPT-5 进展追踪(The Verge)、SWE-bench 官方 Leaderboard(GitHub @princeton-nlp)
```