← 返回资讯
大模型 @GoogleDeepMind 2026-05-12

Google DeepMind:用 AI 重塑 50 年历史的鼠标指针

DeepMind 发布实验性 demo,让用户通过动作、语音和自然简写直接在屏幕上指挥 Gemini,重新定义人机交互。

查看原文
TL;DR · 产品解读

DeepMind 发布实验性 demo,用手势+语音+自然简写直接在屏幕上指挥 Gemini,以 AI 重新定义已有 50 年历史的鼠标交互范式。这是「点击界面」向「对话界面」的范式跃迁。

深度解读

产品具体是什么

这是一款来自 Google DeepMind 的实验性演示,核心思路是让 AI 直接接管屏幕上的交互主权。用户不再需要传统意义上的鼠标点击、拖拽或键盘输入,而是通过三种输入模态的任意组合来下达指令:

Gemini 在后端充当「意图理解引擎」,将上述多种输入统一映射为屏幕上的实际操作。

解决什么问题

传统 GUI 范式诞生于 1970 年代 Doug Engelbart 的鼠标原型,至今 50 余年未有根本性变革。鼠标+键盘的交互模式在面对 AI 时代海量信息处理需求时,效率瓶颈明显:多步骤操作需要反复切换工具栏菜单,而 Gemini 这类 LLM 的能力被限制在聊天框内,无法延伸至真实屏幕操控。

该项目试图打破这个壁垒——让 AI「看见」屏幕、「理解」用户意图、并直接在屏幕空间内执行操作。

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. Google DeepMind 原文 · 2026-05-12
  2. Anthropic - Computer Use · 2024-10
  3. Microsoft Copilot+ PC features · 2024-05
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。