← 返回资讯
研究 @_akhaliq 2026-02-18

SkillsBench:评估 AI Agent 技能跨任务泛化能力的新基准

最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。

查看原文
AI 资讯解读
本解读由 AI 自动生成,仅供参考。请以原文为准。