← 返回资讯
大模型 @swyx 2026-02-23

SWE-Bench Verified 被宣告失效:OpenAI 自查发现 16.4% 题目不可解

swyx 报道编程基准 SWE-Bench Verified 已被宣告失效。OpenAI 自查发现至少 16.4% 的题目理论上无法解决,且所有前沿模型因数据污染都能答对这些题。

查看原文
AI 资讯解读
本解读由 AI 自动生成,仅供参考。请以原文为准。