CLAW 能力评测全解:9 个 benchmark、5 类共识指标、数据集结构与业界 critique(2026)
Benchmark Files · CUA 专题
OpenAI Operator、Anthropic Computer Use、Hermes Agent、UI-TARS、Browser-Use —— 「能开你电脑替你点鼠标」的 agent 怎么评?哪些数字可信、哪些是 sandbox 幻觉。
过去 18 个月里,「Computer-Using Agent」(CUA / CLAW)从 OpenAI Operator 2025-01 发布[1]、Anthropic Claude Computer Use 2024-10 进入 API[2],到 2026-02 Sonnet 4.6 在 OSWorld-Verified 拿下 72.5%——首次逼近 72.36% 的人类基线[3][4]。同期 ByteDance UI-TARS、Nous Research Hermes Agent、开源的 Browser-Use / Skyvern / Self-Operating-Computer 各自走出不同技术路线[5][6]。但「分数涨得快」≠「真在干活」:2025-04 发表的「An Illusion of Progress?」论文用 Online-Mind2Web 复评,发现 WebVoyager 上 ~90% 成功率的 agent 到真实活网站只剩 ~30% 段位[7];Salesforce 的 SCUBA 给企业级任务再泼一盆冷水——开源模型在企业 benchmark 上 <5%[8]。
这份档案把 CUA 评测拆成 6 个问题:怎么评 / 评什么 / 用哪些指标 / 数据长什么样 / 业界怎么看 / 创业者该怎么用。覆盖 9 个主流 benchmark(OSWorld / WebArena / VisualWebArena / Mind2Web / Mind2Web-2 / Online-Mind2Web / WebVoyager / AndroidWorld / WindowsAgentArena / GAIA + 安全专项 OS-Harm + 终端专项 Terminal-Bench),全部数据 2026-05-25 一手核对。
定义
什么是 CLAW / CUA — 与「普通 agent」的差别。
Computer-Using Agent (CUA):能像人一样用鼠标、键盘、屏幕直接操作通用 OS / 浏览器 / 桌面应用的 AI agent。OpenAI 的官方定义是「a model that can perceive and reason about a graphical user interface in pixels, and act through generic actions like mouse and keyboard」[1]。
与常见 agent 的关键差异:
| 维度 | 普通 LLM Agent | CUA / CLAW |
|---|---|---|
| 接口 | API / function-call / tool-call | 屏幕截图 + accessibility tree + DOM |
| 动作空间 | 结构化 JSON 函数调用 | click(x,y) / type(text) / scroll / key / drag |
| 状态空间 | 确定的 API response schema | 随版本变的 GUI,弹窗 / 广告 / cookie banner |
| 错误恢复 | HTTP 状态码 + retry | 视觉判断「我点错了吗」+ 回滚 UI 状态 |
| 评测难度 | execution-based 单元测试可判 | 需 sandbox VM + 应用初始化 + state-based 判分 |
2026 产品全景
主流 CLAW 产品对照(截至 2026-05-25)。
| 产品 | 厂商 / 项目 | 技术路线 | OS 支持 | 代表分数 |
|---|---|---|---|---|
| OpenAI Operator / CUA | OpenAI | 云端浏览器 + 自研 CUA 模型 | Web(Cloud VM) | OSWorld 38.1% / WebArena 58.1%[1] |
| Claude Computer Use | Anthropic | tool API + 用户本地 VM | 跨平台(用户自管) | OSWorld-Verified 72.5%(Sonnet 4.6)[4] |
| Hermes Agent | Nous Research | MCP + cua-driver(trycua/cua)+ SkyLight SPI | macOS 专用 | 模型无关(可接 Claude / GPT / 本地 vLLM)[9] |
| UI-TARS / UI-TARS-1.5 | ByteDance | 原生 VLM GUI agent(7B / 72B) | 桌面 + 浏览器 + 移动 | OSWorld 42.5%(100 步 · UI-TARS-1.5)[5] |
| Browser-Use | 开源(browser-use.com) | Playwright + DOM + LLM | Web only | Online-Mind2Web 多次冲榜[10] |
| Skyvern | Skyvern AI(YC) | SoM + LLM 多模型路由 | Web only | — |
| Self-Operating-Computer | HyperWriteAI 开源 | screenshot → LLM → pyautogui | 跨平台 | —(社区评测) |
| Agent-S / Agent-S2 | Simular | 层级 planner + grounding 模型 | 桌面 + Web | OSWorld 长链任务 SOTA 之一 |
| GLM-PC | 智谱 AI | 多模态 + 国内桌面应用适配 | Windows | 厂商自评(无独立 leaderboard) |