← 返回资讯
研究 @_akhaliq 2026-02-18

SkillsBench:评估 AI Agent 技能跨任务泛化能力的新基准

最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。