CLAW 能力评测全解：9 个 benchmark、5 类共识指标、数据集结构与业界 critique（2026）

Benchmark Files · CUA 专题

OpenAI Operator、Anthropic Computer Use、Hermes Agent、UI-TARS、Browser-Use —— 「能开你电脑替你点鼠标」的 agent 怎么评？哪些数字可信、哪些是 sandbox 幻觉。

过去 18 个月里，「Computer-Using Agent」（CUA / CLAW）从 OpenAI Operator 2025-01 发布^[1]、Anthropic Claude Computer Use 2024-10 进入 API^[2]，到 2026-02 Sonnet 4.6 在 OSWorld-Verified 拿下 72.5%——首次逼近 72.36% 的人类基线^[3]^[4]。同期 ByteDance UI-TARS、Nous Research Hermes Agent、开源的 Browser-Use / Skyvern / Self-Operating-Computer 各自走出不同技术路线^[5]^[6]。但「分数涨得快」≠「真在干活」：2025-04 发表的「An Illusion of Progress?」论文用 Online-Mind2Web 复评，发现 WebVoyager 上 ~90% 成功率的 agent 到真实活网站只剩 ~30% 段位^[7]；Salesforce 的 SCUBA 给企业级任务再泼一盆冷水——开源模型在企业 benchmark 上 <5%^[8]。

这份档案把 CUA 评测拆成 6 个问题：怎么评 / 评什么 / 用哪些指标 / 数据长什么样 / 业界怎么看 / 创业者该怎么用。覆盖 9 个主流 benchmark（OSWorld / WebArena / VisualWebArena / Mind2Web / Mind2Web-2 / Online-Mind2Web / WebVoyager / AndroidWorld / WindowsAgentArena / GAIA + 安全专项 OS-Harm + 终端专项 Terminal-Bench），全部数据 2026-05-25 一手核对。

72.5%

Claude Sonnet 4.6 · OSWorld-Verified · 首次过人类线 72.36%

38.1%

OpenAI Operator · OSWorld 原版 · 2025-01 发布时

<5%

开源 CUA 在 SCUBA 企业 benchmark · Salesforce 2025

9+1+1

本文覆盖 9 主 benchmark · 1 安全 · 1 终端

定义

什么是 CLAW / CUA — 与「普通 agent」的差别。

Computer-Using Agent (CUA)：能像人一样用鼠标、键盘、屏幕直接操作通用 OS / 浏览器 / 桌面应用的 AI agent。OpenAI 的官方定义是「a model that can perceive and reason about a graphical user interface in pixels, and act through generic actions like mouse and keyboard」^[1]。

与常见 agent 的关键差异：

CUA 不是「更强的 agent」，而是「换了一种接口的 agent」。从 API → GUI 这一步带来了三个根本性挑战：感知像素而非文本、动作空间是离散坐标而非函数调用、状态空间是随时变化的活界面而非确定 schema。
维度	普通 LLM Agent	CUA / CLAW
接口	API / function-call / tool-call	屏幕截图 + accessibility tree + DOM
动作空间	结构化 JSON 函数调用	click(x,y) / type(text) / scroll / key / drag
状态空间	确定的 API response schema	随版本变的 GUI，弹窗 / 广告 / cookie banner
错误恢复	HTTP 状态码 + retry	视觉判断「我点错了吗」+ 回滚 UI 状态
评测难度	execution-based 单元测试可判	需 sandbox VM + 应用初始化 + state-based 判分

2026 产品全景

主流 CLAW 产品对照（截至 2026-05-25）。

按「闭源平台 / 开源模型 / 开源框架 / 自研 driver」四档分。Hermes Agent 是 Nous Research 的 macOS 专用桌面 agent，技术路线最特殊——用 Apple 私有 SkyLight SPI 后台执行，鼠标不动，且模型可换。⚠️ 名字易混：本表的 Hermes 指 nousresearch.com/hermes-agent，不是 Hermes-3 大模型，也不是其他 Hermes 浏览器项目。
产品	厂商 / 项目	技术路线	OS 支持	代表分数
OpenAI Operator / CUA	OpenAI	云端浏览器 + 自研 CUA 模型	Web（Cloud VM）	OSWorld 38.1% / WebArena 58.1%^[1]
Claude Computer Use	Anthropic	tool API + 用户本地 VM	跨平台（用户自管）	OSWorld-Verified 72.5%（Sonnet 4.6）^[4]
Hermes Agent	Nous Research	MCP + cua-driver（trycua/cua）+ SkyLight SPI	macOS 专用	模型无关（可接 Claude / GPT / 本地 vLLM）^[9]
UI-TARS / UI-TARS-1.5	ByteDance	原生 VLM GUI agent（7B / 72B）	桌面 + 浏览器 + 移动	OSWorld 42.5%（100 步 · UI-TARS-1.5）^[5]
Browser-Use	开源（browser-use.com）	Playwright + DOM + LLM	Web only	Online-Mind2Web 多次冲榜^[10]
Skyvern	Skyvern AI（YC）	SoM + LLM 多模型路由	Web only	—
Self-Operating-Computer	HyperWriteAI 开源	screenshot → LLM → pyautogui	跨平台	—（社区评测）
Agent-S / Agent-S2	Simular	层级 planner + grounding 模型	桌面 + Web	OSWorld 长链任务 SOTA 之一
GLM-PC	智谱 AI	多模态 + 国内桌面应用适配	Windows	厂商自评（无独立 leaderboard）