← 返回资讯
大模型 @swyx

SWE-Bench Verified 被宣告失效:OpenAI 自查发现 16.4% 题目不可解

swyx 报道编程基准 SWE-Bench Verified 已被宣告失效。OpenAI 自查发现至少 16.4% 的题目理论上无法解决,且所有前沿模型因数据污染都能答对这些题。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。