深度研报 · Anthropic 收购 · 2026.03

Anthropic 收购 Vercept
Computer Use 背后的感知技术与 AI 操控电脑的未来

Anthropic 将视觉感知初创 Vercept 整支团队纳入麾下,Computer Use 的 OSWorld 准确率从 2024 年不足 15% 跃升至 72.5%。这次收购揭示了 AI 操控电脑的核心瓶颈与突破路径。

72.5%
OSWorld 准确率
收购
团队整合
CU
Computer Use
5
信源
核心论断:Anthropic 收购 Vercept 不是一次普通的人才收购,而是对 Computer Use 技术栈中最关键短板——视觉感知——的战略性补强。当 Claude 能真正"看懂"屏幕上的每一个像素时,AI 操控电脑的能力将发生质变。

2026 年 3 月,Anthropic 宣布收购视觉感知初创公司 Vercept,将其核心团队——包括联合创始人 Kiana Ehsani、Luca Weihs 以及计算机视觉领域传奇研究员 Ross Girshick(曾主导 R-CNN 系列工作)——纳入 Anthropic。[1]

这次收购的时间节点值得关注:Claude Sonnet 4.6 的 Computer Use 功能在 OSWorld 基准上达到了 72.5% 的准确率,而 2024 年同一基准上最好的模型准确率不足 15%。[1] 视觉感知能力的提升是这一飞跃的核心驱动力,Vercept 团队的加入将进一步加速这一进程。

§1

事件始末:Anthropic 为什么收购 Vercept

一支顶级计算机视觉团队的战略价值

Vercept 由 Kiana EhsaniLuca Weihs 联合创办,两人均出身于 Allen Institute for AI(AI2),在具身智能(Embodied AI)和视觉导航领域拥有丰富的研究经验。团队的第三位核心成员 Ross Girshick 是计算机视觉领域的标杆人物,其 R-CNN、Fast R-CNN、Faster R-CNN 系列论文奠定了现代目标检测的基础,累计引用超过十万次。[1]

Vercept 专注于为软件交互场景构建视觉感知系统——教 AI 理解屏幕上的 UI 元素、按钮布局、文本内容和交互逻辑。这恰好是 Computer Use 最核心的技术需求:AI 要操控电脑,首先必须"看懂"屏幕。[2]

👤 Kiana Ehsani

AI2 研究员,具身 AI 与视觉导航专家。在 CVPR/ICLR 等顶会发表多篇论文,专注于 Agent 如何在真实环境中通过视觉理解进行交互。[1]

👤 Luca Weihs

AI2 高级研究员,AllenAct 框架核心开发者。擅长将感知、规划和执行整合为统一的 Agent 系统架构。[1]

👤 Ross Girshick

R-CNN 之父,曾任 Meta FAIR 研究科学家。其目标检测方法论直接影响了 AI 理解屏幕元素的技术路线。[1]

收购逻辑:Anthropic 的 Computer Use 已经证明 LLM 可以操控电脑,但视觉感知仍然是最大瓶颈——模型经常误读 UI 元素、忽略弹窗、混淆相似按钮。Vercept 团队的加入,是对这一瓶颈的精准打击。
§2

Vercept 的感知技术:为软件交互而生

从具身智能到桌面 Agent,视觉感知的迁移

Vercept 的技术根基来自具身智能领域的视觉感知研究。在 AI2 期间,团队构建了多个开源的具身 AI 平台(如 AI2-THOR、RoboTHOR),让 Agent 在模拟环境中学习视觉导航和物体交互。[2]

从物理世界到数字桌面的迁移,核心挑战在于:

📸
屏幕截图
像素级输入
👁
Vercept 感知层
UI 识别 + 空间理解
🧠
Claude 推理层
决策 + 规划
🖱
操作执行
点击 / 输入 / 滚动

Vercept 的技术栈与 Anthropic Computer Use 的架构高度互补:Claude 负责高层推理和任务规划,Vercept 的感知模块负责将像素转化为结构化的 UI 语义信息。[1]

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录