方法论

CLAW 能力评测全解 — 9 个 benchmark、5 类共识指标、数据集结构与业界 critique(2026)

Benchmark Files · CUA 专题 · OSWorld / WebArena / GAIA / Online-Mind2Web / OS-Harm 一手核对 · Hermes Agent / OpenAI Operator / UI-TARS 横评

Pro 限定研报

2026-05-25 22 篇信源 读完约 16 分钟

CLAW 能力评测全解:9 个 benchmark、5 类共识指标、数据集结构与业界 critique(2026)

Benchmark Files · CUA 专题

OpenAI Operator、Anthropic Computer Use、Hermes Agent、UI-TARS、Browser-Use —— 「能开你电脑替你点鼠标」的 agent 怎么评?哪些数字可信、哪些是 sandbox 幻觉。

过去 18 个月里,「Computer-Using Agent」(CUA / CLAW)从 OpenAI Operator 2025-01 发布[1]、Anthropic Claude Computer Use 2024-10 进入 API[2],到 2026-02 Sonnet 4.6 在 OSWorld-Verified 拿下 72.5%——首次逼近 72.36% 的人类基线[3][4]。同期 ByteDance UI-TARS、Nous Research Hermes Agent、开源的 Browser-Use / Skyvern / Self-Operating-Computer 各自走出不同技术路线[5][6]。但「分数涨得快」≠「真在干活」:2025-04 发表的「An Illusion of Progress?」论文用 Online-Mind2Web 复评,发现 WebVoyager 上 ~90% 成功率的 agent 到真实活网站只剩 ~30% 段位[7];Salesforce 的 SCUBA 给企业级任务再泼一盆冷水——开源模型在企业 benchmark 上 <5%[8]

这份档案把 CUA 评测拆成 6 个问题:怎么评 / 评什么 / 用哪些指标 / 数据长什么样 / 业界怎么看 / 创业者该怎么用。覆盖 9 个主流 benchmark(OSWorld / WebArena / VisualWebArena / Mind2Web / Mind2Web-2 / Online-Mind2Web / WebVoyager / AndroidWorld / WindowsAgentArena / GAIA + 安全专项 OS-Harm + 终端专项 Terminal-Bench),全部数据 2026-05-25 一手核对。

72.5%
Claude Sonnet 4.6 · OSWorld-Verified · 首次过人类线 72.36%
38.1%
OpenAI Operator · OSWorld 原版 · 2025-01 发布时
<5%
开源 CUA 在 SCUBA 企业 benchmark · Salesforce 2025
9+1+1
本文覆盖 9 主 benchmark · 1 安全 · 1 终端

定义

什么是 CLAW / CUA — 与「普通 agent」的差别。

Computer-Using Agent (CUA):能像人一样用鼠标、键盘、屏幕直接操作通用 OS / 浏览器 / 桌面应用的 AI agent。OpenAI 的官方定义是「a model that can perceive and reason about a graphical user interface in pixels, and act through generic actions like mouse and keyboard」[1]

与常见 agent 的关键差异:

维度普通 LLM AgentCUA / CLAW
接口API / function-call / tool-call屏幕截图 + accessibility tree + DOM
动作空间结构化 JSON 函数调用click(x,y) / type(text) / scroll / key / drag
状态空间确定的 API response schema随版本变的 GUI,弹窗 / 广告 / cookie banner
错误恢复HTTP 状态码 + retry视觉判断「我点错了吗」+ 回滚 UI 状态
评测难度execution-based 单元测试可判需 sandbox VM + 应用初始化 + state-based 判分
CUA 不是「更强的 agent」,而是「换了一种接口的 agent」。从 API → GUI 这一步带来了三个根本性挑战:感知像素而非文本、动作空间是离散坐标而非函数调用、状态空间是随时变化的活界面而非确定 schema。

2026 产品全景

主流 CLAW 产品对照(截至 2026-05-25)。

产品厂商 / 项目技术路线OS 支持代表分数
OpenAI Operator / CUAOpenAI云端浏览器 + 自研 CUA 模型Web(Cloud VM)OSWorld 38.1% / WebArena 58.1%[1]
Claude Computer UseAnthropictool API + 用户本地 VM跨平台(用户自管)OSWorld-Verified 72.5%(Sonnet 4.6)[4]
Hermes AgentNous ResearchMCP + cua-driver(trycua/cua)+ SkyLight SPImacOS 专用模型无关(可接 Claude / GPT / 本地 vLLM)[9]
UI-TARS / UI-TARS-1.5ByteDance原生 VLM GUI agent(7B / 72B)桌面 + 浏览器 + 移动OSWorld 42.5%(100 步 · UI-TARS-1.5)[5]
Browser-Use开源(browser-use.com)Playwright + DOM + LLMWeb onlyOnline-Mind2Web 多次冲榜[10]
SkyvernSkyvern AI(YC)SoM + LLM 多模型路由Web only
Self-Operating-ComputerHyperWriteAI 开源screenshot → LLM → pyautogui跨平台—(社区评测)
Agent-S / Agent-S2Simular层级 planner + grounding 模型桌面 + WebOSWorld 长链任务 SOTA 之一
GLM-PC智谱 AI多模态 + 国内桌面应用适配Windows厂商自评(无独立 leaderboard)
按「闭源平台 / 开源模型 / 开源框架 / 自研 driver」四档分。Hermes Agent 是 Nous Research 的 macOS 专用桌面 agent,技术路线最特殊——用 Apple 私有 SkyLight SPI 后台执行,鼠标不动,且模型可换。⚠️ 名字易混:本表的 Hermes 指 nousresearch.com/hermes-agent,不是 Hermes-3 大模型,也不是其他 Hermes 浏览器项目。