JavaScript 已关闭 · 阅读 / 搜索 / RSS / Atom / JSON Feed / LLMs.txt 均可用 · 仅 PWA 安装 / 返回顶部 / 移动底部导航等增强功能依赖 JS

大模型 HuggingFace Daily Papers 2026-06-30

SWE-Together：交互式用户会话中的编程智能体评估

SWE-Together：交互式用户会话中的编程智能体评估

SWE-Together 是一个多轮编程基准测试，基于真实用户与智能体交互创建，包含反应式 LLM 模拟器，可根据最终正确性和交互效率评估智能体。

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。