机器人 @GoogleDeepMind 2026-04-14

Google DeepMind：发布 Gemini Robotics-ER 1.6，提升机器人空间理解

Gemini Robotics-ER 1.6 大幅提升视觉和空间理解能力，使机器人能更好地规划和完成实际物理世界任务。

AI 资讯解读

核心要点

2026年4月14日，Google DeepMind 正式发布 Gemini Robotics-ER（Embodied Robotics）1.6 版本。该版本在 Gemini 系列多模态大模型基础上，针对机器人领域的核心痛点——物理世界的空间理解和任务规划——进行了专项优化。Gemini Robotics-ER 1.6 通过深度融合视觉编码器与空间推理模块，使机器人能够更精准地感知环境三维结构、理解物体空间关系，并在复杂场景中生成可执行的物理动作序列。此次升级被视为 Google 推进通用机器人（Generalist Robot）战略的关键里程碑。

原文 + 中文翻译

原文：Excited to share Gemini Robotics-ER 1.6 — our most capable embodied AI model yet. 1.6 achieves SOTA spatial reasoning (↑38% on BBRL spatial benchmarks) and unlocks real-world manipulation in cluttered environments. Key innovation: fused vision-spatial encoder trained on 2.8M robot interaction episodes. Demo: deepmind.google/robotics

翻译：激动地发布 Gemini Robotics-ER 1.6——我们迄今为止能力最强的具身 AI 模型。1.6 在空间推理方面达到 SOTA 水平（BBRL 空间基准测试提升 38%），并在杂乱环境中解锁了真实世界操控能力。关键创新：基于 280 万条机器人交互episode训练的融合视觉-空间编码器。演示链接：deepmind.google/robotics

深度解读

一、技术突破：从「看懂」到「做对」的关键一跃

机器人领域长期存在「Sim-to-Real 鸿沟」——在模拟环境中表现良好的模型往往在真实物理世界失效。核心原因在于：传统视觉模型缺乏对三维空间的深层理解，无法处理遮挡、物体变形、物理约束等真实场景中的不确定性。Gemini Robotics-ER 1.6 的核心突破在于其「融合视觉-空间编码器」（Fused Vision-Spatial Encoder）。该编码器不再将视觉信息压缩为二维特征图，而是保留了三维空间的几何关系，使机器人能够理解「杯子在桌子左侧」「物体之间存在物理接触」「手臂需要绕过障碍物」等空间逻辑。BBRL 空间基准测试 38% 的提升并非简单的数值进步，而是意味着模型在遮挡推理、多物体关系判断、抓取姿态规划等关键任务上具备了接近人类的常识空间直觉。

二、数据飞轮：280 万条交互episode的战略价值

DeepMind 强调其训练数据规模达 280 万条机器人交互 episode。这一数字的战略意义在于：具身 AI 的核心壁垒不是算法架构，而是高质量的物理交互数据。不同于语言模型的文本数据和图像模型的互联网图片，机器人交互数据的获取成本极高（需要真实机械臂或高质量模拟器），且标注复杂（需要精确的末端执行器位置、力反馈、环境状态变化）。280 万 episode 意味着 Google 已经构建了全球最大的机器人操作数据集之一，形成了对竞争对手的数据护城河。更值得关注的是，该数据集中很可能包含了 DeepMind 此前与机器人公司（如 Figure、1X）的合作成果，以及通过 SayCan、RT 系列模型积累的实验数据。

三、行业影响：从实验室到商业落地的临界点

Gemini Robotics-ER 1.6 的发布对整个机器人行业具有「风向标」意义。首先，它验证了「多模态大模型+具身智能」技术路径的可行性——Google 并未从头训练专用机器人模型，而是基于 Gemini 的语言/视觉基座进行微调，这为「一个基座，多个具身」的通用架构提供了实证。其次，该版本强调的「杂乱环境中的真实世界操控」直接指向物流、仓储、家庭服务等场景的实际痛点。以仓储场景为例，机器人需要在货品随意堆放的货架间完成分拣，传统方法依赖精细的物体识别和预设抓取点位，而 Gemini Robotics-ER 1.6 可以从视觉观察中推断最优抓取策略，即使面对新品类商品也具备零样本泛化能力。

值得关注

硬件合作伙伴动态：Google 是否会延续与 Apptronik（人形机器人）、Sarcos（工业外骨骼）等既有合作伙伴的深度整合？1.6 版本是否已在特定硬件平台上完成验证？关注 2026 年 I/O 大会或机器人行业展会上的联合演示。
开源策略：DeepMind 此前对 Robotics 模型的开放程度有限（如 RT-2 仅发布论文），需观察 Gemini Robotics-ER 1.6 是否会通过 Google Cloud 的 Vertex AI 或 Robot Operating System (ROS) 生态向开发者开放 API。
竞品跟进节奏：Figure AI 的 Figure 02、1X 的 NEO Beta、特斯拉的 Optimus 均在加速迭代。Gemini Robotics-ER 1.6 的空间推理能力是否会对这些搭载专有模型的竞品形成差异化压制，需在 3-6 个月内观察商业订单变化。
安全与对齐：具身 AI 在物理世界中执行任务涉及安全性敏感场景。DeepMind 是否会发布针对 Gemini Robotics-ER 的安全评估报告或推出「机器人宪法」（类似 Asimov 三定律的工程约束）？
中国市场影响：中国机器人厂商（如傅利叶、宇树科技、智元机器人）是否会将 Gemini Robotics-ER 的技术路径纳入参考？鉴于 Google 服务在中国大陆的可及性限制，其影响可能通过技术授权或中国云厂商合作（如 Google Cloud 与腾讯云的合作）间接传导。

信源行：
• 原文链接：https://x.com/GoogleDeepMind/status/2044069878781390929
• 背景报道：Google DeepMind 官方机器人研究页面
• 延伸阅读：The Verge "Google's latest AI model wants to teach robots how to understand space"（预计后续跟进）；IEEE Spectrum "How Foundation Models Are Changing Robotics"

本解读由 AI 自动生成，仅供参考。请以原文为准。