← 返回资讯
研究 @swyx 2026-06-08

FrontierCode 基准揭示 SWE-bench 超半数结果不可用

研究显示 SWE-bench 存在大量不可合并的低质数据,FrontierCode 收录 1000+ 小时人工验证的软件工程任务,难度极高(Opus 4.8 仅获 13.8 分)。

查看原文
TL;DR · 评测解读

SWE-bench 被 FrontierCode 揭底:超半数数据不可用或低质;FrontierCode 用 1000+ 小时人工验证的高难度任务重测 AI 编程能力,结果 Opus 4.8 仅得 13.8 分——现有模型在真实软件工程上仍差距巨大。

深度解读

测什么?

FrontierCode 是一个软件工程任务基准,与 SWE-bench 类似,都考察大模型从 issue 描述到可合并代码 patch 的端到端能力。区别在于:SWE-bench 从 GitHub 历史 issue 中自动提取数据,而 FrontierCode 声称对每条数据投入了 1000+ 小时人工验证,筛选标准更严苛,任务难度显著更高。

方法论质疑

两个维度值得追问:

参考来源
  1. FrontierCode 基准揭示 SWE-bench 超半数结果不可用 · 2026-06-08
  2. SWE-bench: Evaluating Large Language Models on Real-World Software Problem Solving · 2024
  3. Benchmarking Large Language Model Performance: Contamination and Solutions · 2024
本解读由 AI 自动生成 · 模板:评测解读 · 仅供参考,请以原文为准。