OpenAI 于 2026 年 3 月 5 日发布 GPT-5.4,这是其首个内置原生计算机操作能力的通用模型。在 OSWorld-Verified 评测中,GPT-5.4 以 75.0% 的成功率超越人类测试者的 72.4% 基线——首个前沿模型在桌面自主任务中击败人类。[1]
GPT-5.4 还搭载了 1M Token 上下文窗口(OpenAI 最大)和 Tool Search(动态工具发现)等创新能力,在多个 Agent 评测中刷新记录。[2]
突破:超越人类基线意味着什么
从"能用"到"比人类更可靠"
OSWorld 是一个评测 AI Agent 在真实桌面环境中自主完成任务能力的基准。任务包括:导航 UI、管理文件、执行终端命令、在多个应用之间切换完成复杂工作流——都是日常办公中的真实场景。[1]
GPT-5.4 以 75.0% 的成功率超越人类测试者的 72.4% 基线。这意味着在相同条件下,GPT-5.4 完成桌面任务的可靠性已经高于该基准中的人类测试者基线。[1]
GPT-5.4 可以通过截图、鼠标点击和键盘输入直接操控软件——不依赖 API,而是像人类一样"看屏幕、动鼠标"。这是 OpenAI 首个搭载原生计算机操作能力的通用模型。[2]
100 万 Token 上下文窗口让 Agent 可以在长时间跨度内规划、执行和验证任务,无需频繁"遗忘"之前的上下文。这是 OpenAI 提供的最大上下文窗口。[3]
新的动态工具发现机制:模型接收轻量级工具列表,需要时再查找具体工具定义。解决了 Agent 工具数量与上下文窗口的矛盾。[3]
OSWorld 评测详解
桌面自主任务的"图灵测试"
OSWorld 评测为何重要?因为它测试的不是"知道什么",而是"能做什么"。任务要求 Agent 在真实操作系统环境中完成多步骤工作流——打开应用、点击按钮、填写表单、切换窗口、验证结果。[2]
| 评测 | GPT-5.4 | 人类基线 | 超越人类 | 测试内容 |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.4% | +2.6pp | 桌面 UI 导航、文件管理、终端命令 |
| Online-Mind2Web | 92.8% | — | — | 仅截图的浏览器操作 |
| WebArena-Verified | 67.3% | — | — | DOM + 截图的浏览器导航 |
| Toolathlon | 54.6% | — | — | 多步骤真实工具和 API 使用 |
值得注意的差异:在 Online-Mind2Web(仅截图浏览器操作)中 GPT-5.4 高达 92.8%,但在 Toolathlon(多步骤真实工具使用)中只有 54.6%。这说明简单 UI 操作已经接近解决,但复杂工具链编排仍有很大提升空间。[2]