SWE-bench 基准测试可信度遭质疑
Latent Space 主理人 swyx 指出,SWE-bench 作者本人不认可低成本采样的基准结果,要达到统计显著性需 30-60 倍计算量,呼吁社区冷静对待排行榜分数。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
Latent Space 主理人 swyx 指出,SWE-bench 作者本人不认可低成本采样的基准结果,要达到统计显著性需 30-60 倍计算量,呼吁社区冷静对待排行榜分数。
查看原文