大模型 @GoogleDeepMind 2026-05-12

Google DeepMind：用 AI 重塑 50 年历史的鼠标指针

DeepMind 发布实验性 demo，让用户通过动作、语音和自然简写直接在屏幕上指挥 Gemini，重新定义人机交互。

查看原文

TL;DR · 产品解读

DeepMind 发布实验性 demo，用手势+语音+自然简写直接在屏幕上指挥 Gemini，以 AI 重新定义已有 50 年历史的鼠标交互范式。这是「点击界面」向「对话界面」的范式跃迁。

深度解读

产品具体是什么

这是一款来自 Google DeepMind 的实验性演示，核心思路是让 AI 直接接管屏幕上的交互主权。用户不再需要传统意义上的鼠标点击、拖拽或键盘输入，而是通过三种输入模态的任意组合来下达指令：

动作（gesture）：手部动作直接映射为屏幕操作意图
语音（voice）：自然语言指令实时解析执行
自然简写（natural shorthand）：类似速记的轻量级表达方式，AI 自动补全意图

Gemini 在后端充当「意图理解引擎」，将上述多种输入统一映射为屏幕上的实际操作。

解决什么问题

传统 GUI 范式诞生于 1970 年代 Doug Engelbart 的鼠标原型，至今 50 余年未有根本性变革。鼠标+键盘的交互模式在面对 AI 时代海量信息处理需求时，效率瓶颈明显：多步骤操作需要反复切换工具栏菜单，而 Gemini 这类 LLM 的能力被限制在聊天框内，无法延伸至真实屏幕操控。

该项目试图打破这个壁垒——让 AI「看见」屏幕、「理解」用户意图、并直接在屏幕空间内执行操作。

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Google DeepMind 原文 · 2026-05-12
Anthropic - Computer Use · 2024-10
Microsoft Copilot+ PC features · 2024-05

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。