← 返回资讯
研究 @swyx 2026-03-05

SWE-bench 基准测试可信度遭质疑

Latent Space 主理人 swyx 指出,SWE-bench 作者本人不认可低成本采样的基准结果,要达到统计显著性需 30-60 倍计算量,呼吁社区冷静对待排行榜分数。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。