← 返回资讯
研究 @dotey 2026-04-12

伯克利研究:作弊 AI 攻破 SWE-bench 等 8 大智能体评测基准

伯克利团队构建专门作弊的 AI 攻击 8 个主流评测基准,未调用任何大模型即获近满分。SWE-bench 仅用 10 行代码劫持 pytest 测试框架,500 道题全部通过;WebArena 标准答案直接存在本地文件中可被读取。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。