大模型 @swyx 2026-02-23

SWE-Bench Verified 被宣告失效：OpenAI 自查发现 16.4% 题目不可解

swyx 报道编程基准 SWE-Bench Verified 已被宣告失效。OpenAI 自查发现至少 16.4% 的题目理论上无法解决，且所有前沿模型因数据污染都能答对这些题。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。