SWE-Together:交互式用户会话中的编程智能体评估
SWE-Together 是一个多轮编程基准测试,基于真实用户与智能体交互创建,包含反应式 LLM 模拟器,可根据最终正确性和交互效率评估智能体。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
SWE-Together 是一个多轮编程基准测试,基于真实用户与智能体交互创建,包含反应式 LLM 模拟器,可根据最终正确性和交互效率评估智能体。
查看原文