SkillsBench:评估 AI Agent 技能跨任务泛化能力的新基准
最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。
查看原文AI 资讯解读
本解读由 AI 自动生成,仅供参考。请以原文为准。
最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。
查看原文