大模型 @Kimi_Moonshot 2026-01-31

Kimi K2.5 登顶 OSWorld 榜首

Kimi K2.5 凭借 Computer Use 能力登顶 OSWorld 排行榜，可构建像人类一样操作电脑界面的智能体

TL;DR · 产品解读

Kimi K2.5 在 OSWorld 基准登顶，标志着国产大模型在 Computer Use 智能体能力上首次取得领先。Kimi 的 Computer Use 能力意味着 AI 可以像人类一样「看屏幕→操作鼠标键盘→完成任务」，这对 AI Agent 落地是关键技术突破。

深度解读

Kimi K2.5 是月之暗面（Moonshot AI）发布的旗舰多模态大模型，主打 Computer Use（计算机使用）能力。简单说：它能看懂屏幕截图、理解界面元素，并像人类一样执行鼠标点击、键盘输入等操作序列，来完成复杂任务。

这次登顶的是 OSWorld 基准——这是业界公认的评估 AI Agent 操作电脑能力的权威榜单，测试模型能否在真实操作系统环境（Linux）中完成浏览器、文件管理、代码编辑器等任务。登顶 OSWorld 意味着 Kimi K2.5 在「感知-推理-行动」闭环上领先业界。

传统 LLM 只能处理文本，而现实世界大量任务需要操作软件界面：RPA 自动化、数据录入、客服机器人、测试脚本生成等。Computer Use 能力让 AI 从「能说」进化到「能做」，是 AI Agent 落地的核心技术瓶颈。

Anthropic Claude 3.7/3.5 Sonnet：2024 年率先推出 Computer Use，API 定价约 $15/M 输入 tokens，在 OSWorld 上长期占据领先位置。Claude 的优势

未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。