产品发布 @dotey 2026-04-07

Claude Mythos Preview 跑分断崖式领先，SWE-bench 93.9%、USAMO 97.6%

Anthropic 发布 Claude Mythos Preview 并宣布 Project Glasswing。对比 Opus 4.6，SWE-bench 从 80.8% 升至 93.9%，USAMO 从 42.3% 飙至 97.6%，在几乎所有基准上以两位数优势领先 GPT-5.4 和 Gemini 3.1 Pro。

查看原文

TL;DR · 产品解读

Claude Mythos Preview 发布，SWE-bench 93.9%（+13.1pp）、USAMo 97.6%（+55.3pp），断崖式领先 GPT-5.4 和 Gemini 3.1 Pro。Anthropic 同时预告 Project Glasswing，标志着 Claude 在编程与数学推理上全面突破。

深度解读

产品是什么

Claude Mythos Preview 是 Anthropic 最新发布的旗舰推理模型系列，重点强化了代码生成（Software Engineering）和数学推理（USAMO）两大高价值场景。相比前代 Opus 4.6，在几乎所有主流基准上实现了两位数百分点的提升。

核心提升数字

SWE-bench（软件工程基准）：80.8% → 93.9%（+13.1pp）
USAMO（美国奥数竞赛题）：42.3% → 97.6%（+55.3pp）——这是最夸张的单项涨幅

对比同类竞品

vs GPT-5.4：Claude 在 SWE-bench 和 USAMO 上均保持两位数领先，但 GPT-5.4 在某些创意写作和长上下文理解上仍有微弱优势。
vs Gemini 3.1 Pro：Gemini 3.1 Pro 定价更低（~$0.9/M tokens vs Claude ~$15/M），但在代码和数学基准上落后约 15-20pp，适合预算敏

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

dotey 发布推文 · 2026-04-07

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。