研究 @swyx 2026-06-08

FrontierCode 基准揭示 SWE-bench 超半数结果不可用

研究显示 SWE-bench 存在大量不可合并的低质数据，FrontierCode 收录 1000+ 小时人工验证的软件工程任务，难度极高（Opus 4.8 仅获 13.8 分）。

TL;DR · 评测解读

SWE-bench 被 FrontierCode 揭底：超半数数据不可用或低质；FrontierCode 用 1000+ 小时人工验证的高难度任务重测 AI 编程能力，结果 Opus 4.8 仅得 13.8 分——现有模型在真实软件工程上仍差距巨大。

深度解读

测什么？

FrontierCode 是一个软件工程任务基准，与 SWE-bench 类似，都考察大模型从 issue 描述到可合并代码 patch 的端到端能力。区别在于：SWE-bench 从 GitHub 历史 issue 中自动提取数据，而 FrontierCode 声称对每条数据投入了 1000+ 小时人工验证，筛选标准更严苛，任务难度显著更高。

方法论质疑

两个维度值得追问：

数据污染风险（contamination）：SWE-bench 的公开性使其题目极可能被训练数据包含——这是 benchmark 衰变的经典路径，FrontierCode 宣称「高难度」部分也可能源于刻意挑选了近期、未公开的 issue，但这一点尚未被独立复现。
难度校准（difficulty calibration）：Opus 4.8 仅获 13.8 分，说明 FrontierCode 的评分体系可能比 SWE-bench 严苛得多。但「13.8 分」的绝对值缺乏对照——

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。