研究 @swyx 2026-03-05

SWE-bench 基准测试可信度遭质疑

Latent Space 主理人 swyx 指出，SWE-bench 作者本人不认可低成本采样的基准结果，要达到统计显著性需 30-60 倍计算量，呼吁社区冷静对待排行榜分数。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。