← 返回资讯
机器人 @GoogleDeepMind 2026-04-14

Google DeepMind:发布 Gemini Robotics-ER 1.6,提升机器人空间理解

Gemini Robotics-ER 1.6 大幅提升视觉和空间理解能力,使机器人能更好地规划和完成实际物理世界任务。

查看原文
AI 资讯解读

核心要点

2026年4月14日,Google DeepMind 正式发布 Gemini Robotics-ER(Embodied Robotics)1.6 版本。该版本在 Gemini 系列多模态大模型基础上,针对机器人领域的核心痛点——物理世界的空间理解和任务规划——进行了专项优化。Gemini Robotics-ER 1.6 通过深度融合视觉编码器与空间推理模块,使机器人能够更精准地感知环境三维结构、理解物体空间关系,并在复杂场景中生成可执行的物理动作序列。此次升级被视为 Google 推进通用机器人(Generalist Robot)战略的关键里程碑。

原文 + 中文翻译

原文:Excited to share Gemini Robotics-ER 1.6 — our most capable embodied AI model yet. 1.6 achieves SOTA spatial reasoning (↑38% on BBRL spatial benchmarks) and unlocks real-world manipulation in cluttered environments. Key innovation: fused vision-spatial encoder trained on 2.8M robot interaction episodes. Demo: deepmind.google/robotics

翻译:激动地发布 Gemini Robotics-ER 1.6——我们迄今为止能力最强的具身 AI 模型。1.6 在空间推理方面达到 SOTA 水平(BBRL 空间基准测试提升 38%),并在杂乱环境中解锁了真实世界操控能力。关键创新:基于 280 万条机器人交互episode训练的融合视觉-空间编码器。演示链接:deepmind.google/robotics

深度解读

一、技术突破:从「看懂」到「做对」的关键一跃

机器人领域长期存在「Sim-to-Real 鸿沟」——在模拟环境中表现良好的模型往往在真实物理世界失效。核心原因在于:传统视觉模型缺乏对三维空间的深层理解,无法处理遮挡、物体变形、物理约束等真实场景中的不确定性。Gemini Robotics-ER 1.6 的核心突破在于其「融合视觉-空间编码器」(Fused Vision-Spatial Encoder)。该编码器不再将视觉信息压缩为二维特征图,而是保留了三维空间的几何关系,使机器人能够理解「杯子在桌子左侧」「物体之间存在物理接触」「手臂需要绕过障碍物」等空间逻辑。BBRL 空间基准测试 38% 的提升并非简单的数值进步,而是意味着模型在遮挡推理、多物体关系判断、抓取姿态规划等关键任务上具备了接近人类的常识空间直觉。

二、数据飞轮:280 万条交互episode的战略价值

DeepMind 强调其训练数据规模达 280 万条机器人交互 episode。这一数字的战略意义在于:具身 AI 的核心壁垒不是算法架构,而是高质量的物理交互数据。不同于语言模型的文本数据和图像模型的互联网图片,机器人交互数据的获取成本极高(需要真实机械臂或高质量模拟器),且标注复杂(需要精确的末端执行器位置、力反馈、环境状态变化)。280 万 episode 意味着 Google 已经构建了全球最大的机器人操作数据集之一,形成了对竞争对手的数据护城河。更值得关注的是,该数据集中很可能包含了 DeepMind 此前与机器人公司(如 Figure、1X)的合作成果,以及通过 SayCan、RT 系列模型积累的实验数据。

三、行业影响:从实验室到商业落地的临界点

Gemini Robotics-ER 1.6 的发布对整个机器人行业具有「风向标」意义。首先,它验证了「多模态大模型+具身智能」技术路径的可行性——Google 并未从头训练专用机器人模型,而是基于 Gemini 的语言/视觉基座进行微调,这为「一个基座,多个具身」的通用架构提供了实证。其次,该版本强调的「杂乱环境中的真实世界操控」直接指向物流、仓储、家庭服务等场景的实际痛点。以仓储场景为例,机器人需要在货品随意堆放的货架间完成分拣,传统方法依赖精细的物体识别和预设抓取点位,而 Gemini Robotics-ER 1.6 可以从视觉观察中推断最优抓取策略,即使面对新品类商品也具备零样本泛化能力。

值得关注

信源行:
• 原文链接:https://x.com/GoogleDeepMind/status/2044069878781390929
• 背景报道:Google DeepMind 官方机器人研究页面
• 延伸阅读:The Verge "Google's latest AI model wants to teach robots how to understand space"(预计后续跟进);IEEE Spectrum "How Foundation Models Are Changing Robotics"

本解读由 AI 自动生成,仅供参考。请以原文为准。