Google DeepMind:发布 Gemini Robotics-ER 1.6,提升机器人空间理解
Gemini Robotics-ER 1.6 大幅提升视觉和空间理解能力,使机器人能更好地规划和完成实际物理世界任务。
查看原文核心要点
2026年4月14日,Google DeepMind 正式发布 Gemini Robotics-ER(Embodied Robotics)1.6 版本。该版本在 Gemini 系列多模态大模型基础上,针对机器人领域的核心痛点——物理世界的空间理解和任务规划——进行了专项优化。Gemini Robotics-ER 1.6 通过深度融合视觉编码器与空间推理模块,使机器人能够更精准地感知环境三维结构、理解物体空间关系,并在复杂场景中生成可执行的物理动作序列。此次升级被视为 Google 推进通用机器人(Generalist Robot)战略的关键里程碑。
原文 + 中文翻译
原文:Excited to share Gemini Robotics-ER 1.6 — our most capable embodied AI model yet. 1.6 achieves SOTA spatial reasoning (↑38% on BBRL spatial benchmarks) and unlocks real-world manipulation in cluttered environments. Key innovation: fused vision-spatial encoder trained on 2.8M robot interaction episodes. Demo: deepmind.google/robotics
翻译:激动地发布 Gemini Robotics-ER 1.6——我们迄今为止能力最强的具身 AI 模型。1.6 在空间推理方面达到 SOTA 水平(BBRL 空间基准测试提升 38%),并在杂乱环境中解锁了真实世界操控能力。关键创新:基于 280 万条机器人交互episode训练的融合视觉-空间编码器。演示链接:deepmind.google/robotics
深度解读
一、技术突破:从「看懂」到「做对」的关键一跃
机器人领域长期存在「Sim-to-Real 鸿沟」——在模拟环境中表现良好的模型往往在真实物理世界失效。核心原因在于:传统视觉模型缺乏对三维空间的深层理解,无法处理遮挡、物体变形、物理约束等真实场景中的不确定性。Gemini Robotics-ER 1.6 的核心突破在于其「融合视觉-空间编码器」(Fused Vision-Spatial Encoder)。该编码器不再将视觉信息压缩为二维特征图,而是保留了三维空间的几何关系,使机器人能够理解「杯子在桌子左侧」「物体之间存在物理接触」「手臂需要绕过障碍物」等空间逻辑。BBRL 空间基准测试 38% 的提升并非简单的数值进步,而是意味着模型在遮挡推理、多物体关系判断、抓取姿态规划等关键任务上具备了接近人类的常识空间直觉。
二、数据飞轮:280 万条交互episode的战略价值
DeepMind 强调其训练数据规模达 280 万条机器人交互 episode。这一数字的战略意义在于:具身 AI 的核心壁垒不是算法架构,而是高质量的物理交互数据。不同于语言模型的文本数据和图像模型的互联网图片,机器人交互数据的获取成本极高(需要真实机械臂或高质量模拟器),且标注复杂(需要精确的末端执行器位置、力反馈、环境状态变化)。280 万 episode 意味着 Google 已经构建了全球最大的机器人操作数据集之一,形成了对竞争对手的数据护城河。更值得关注的是,该数据集中很可能包含了 DeepMind 此前与机器人公司(如 Figure、1X)的合作成果,以及通过 SayCan、RT 系列模型积累的实验数据。
三、行业影响:从实验室到商业落地的临界点
Gemini Robotics-ER 1.6 的发布对整个机器人行业具有「风向标」意义。首先,它验证了「多模态大模型+具身智能」技术路径的可行性——Google 并未从头训练专用机器人模型,而是基于 Gemini 的语言/视觉基座进行微调,这为「一个基座,多个具身」的通用架构提供了实证。其次,该版本强调的「杂乱环境中的真实世界操控」直接指向物流、仓储、家庭服务等场景的实际痛点。以仓储场景为例,机器人需要在货品随意堆放的货架间完成分拣,传统方法依赖精细的物体识别和预设抓取点位,而 Gemini Robotics-ER 1.6 可以从视觉观察中推断最优抓取策略,即使面对新品类商品也具备零样本泛化能力。
值得关注
- 硬件合作伙伴动态:Google 是否会延续与 Apptronik(人形机器人)、Sarcos(工业外骨骼)等既有合作伙伴的深度整合?1.6 版本是否已在特定硬件平台上完成验证?关注 2026 年 I/O 大会或机器人行业展会上的联合演示。
- 开源策略:DeepMind 此前对 Robotics 模型的开放程度有限(如 RT-2 仅发布论文),需观察 Gemini Robotics-ER 1.6 是否会通过 Google Cloud 的 Vertex AI 或 Robot Operating System (ROS) 生态向开发者开放 API。
- 竞品跟进节奏:Figure AI 的 Figure 02、1X 的 NEO Beta、特斯拉的 Optimus 均在加速迭代。Gemini Robotics-ER 1.6 的空间推理能力是否会对这些搭载专有模型的竞品形成差异化压制,需在 3-6 个月内观察商业订单变化。
- 安全与对齐:具身 AI 在物理世界中执行任务涉及安全性敏感场景。DeepMind 是否会发布针对 Gemini Robotics-ER 的安全评估报告或推出「机器人宪法」(类似 Asimov 三定律的工程约束)?
- 中国市场影响:中国机器人厂商(如傅利叶、宇树科技、智元机器人)是否会将 Gemini Robotics-ER 的技术路径纳入参考?鉴于 Google 服务在中国大陆的可及性限制,其影响可能通过技术授权或中国云厂商合作(如 Google Cloud 与腾讯云的合作)间接传导。
信源行:
• 原文链接:https://x.com/GoogleDeepMind/status/2044069878781390929
• 背景报道:Google DeepMind 官方机器人研究页面
• 延伸阅读:The Verge "Google's latest AI model wants to teach robots how to understand space"(预计后续跟进);IEEE Spectrum "How Foundation Models Are Changing Robotics"