机器人 @BostonDynamics 2026-04-14

Boston Dynamics：Spot 机器狗搭载 Gemini Robotics-ER 1.5 视觉语言模型整理房间

Boston Dynamics 展示 Spot 搭载 Google DeepMind 的 Gemini Robotics-ER 1.5 VLM 进行家居整理，展现了 AI 模型赋能工业机器人执行日常任务的潜力。

AI 资讯解读

核心要点

2026年4月14日，Boston Dynamics 在 X 平台发布演示视频，展示其四足机器人 Spot 集成 Google DeepMind 最新发布的 Gemini Robotics-ER 1.5 视觉语言模型（VLM），执行家居物品整理任务。该演示旨在呈现 VLM 在「通用机器人执行日常非结构化任务」方面的进展，标志着大型视觉语言模型从「对话/感知」向「物理世界操控」的深度延伸。此次展示并非首次尝试，但 Gemini Robotics-ER 1.5 的发布意味着端到端机器人控制从纯规则/模仿学习向「视觉-语言-动作」联合建模的方向迈进。

原文 + 中文翻译

原文：

@BostonDynamics · Apr 14, 2026
"We gave Spot a new brain — powered by Google DeepMind's Gemini Robotics-ER 1.5. Watch it pick up toys, sort items, and navigate a real home. This is what AI + robots looks like in your living room."

翻译：「我们给 Spot 换了一个新大脑——由 Google DeepMind 的 Gemini Robotics-ER 1.5 驱动。看看它如何捡起玩具、分类物品、在真实的家中导航。这就是 AI + 机器人走进客厅的样子。」 原文补充：Google DeepMind 同期发布的 Gemini Robotics-ER 1.5 技术文档将该模型定位为「Extended Reasoning」增强版，专注处理「空间语义理解 + 多步任务规划」，Spot 为其首个公开演示平台。

深度解读

一、VLM 赋能机器人的范式转变

过去五年，工业机器人依赖「预设程序 + 少量视觉反馈」，本质上仍是专用执行器。Gemini Robotics-ER 1.5 的核心突破在于：VLM 提供了「常识推理层」，机器人不再只执行「移动到坐标 A → 抓取 → 移动到坐标 B」的机械序列，而是能将自然语言指令（"把沙发上的玩具收到箱子里"）转化为动作序列，同时在执行中实时根据视觉反馈调整策略。例如，当 Spot 识别到玩具被遮挡时，模型能推理出「先移开枕头、再抓取」的多步计划。这种能力对于处理真实家居环境的非标准化布局至关重要——没有两间房子是完全一样的，而 VLM 的泛化能力让机器人具备了一定的「场景适应力」而非仅依赖高精地图。

二、Boston Dynamics 的商业路径重塑

Boston Dynamics 历史上以「液压驱动高动态运动」著称（Atlas 演示跑酷），Spot 的商业化进程相对成熟（已用于巡检、救援、建筑监测等场景），但「整理房间」这类消费级 / 家庭场景始终停留在演示阶段。此次借 Gemini Robotics-ER 1.5 发力，Boston Dynamics 实际上在向市场传递一个信号：Spot 不只是工业工具，它正在成为一个「能理解你指令的通用移动平台」。这对潜在客户（养老护理、家庭服务）的采购意愿有直接影响。然而需要注意的是，家居环境的物体多样性、碰撞安全性、人机交互复杂度远高于工业场景，Spot 从「演示可行」到「大规模商业落地」仍有相当距离。

三、多模态大模型与机器人控制的融合竞赛

Gemini Robotics-ER 1.5 的推出让 Google DeepMind 正式加入与 Figure AI（Figure 02）、1X Technologies（Neo）、Physical Intelligence（π₀）的多模态机器人模型竞争。这条赛道的核心争夺点是：谁能在「低成本、零样本泛化、实时控制」三者间取得最优平衡。Figure AI 通过与 OpenAI 合作、Figure 02 已进入实际工作场景；Physical Intelligence 的 π₀ 模型在跨机器人形态泛化上表现突出。Google 的优势在于 Gemini 原生的多模态能力和大规模算力基础设施，但机器人硬件层面（Boston Dynamics 机械设计 + 控制 latency）能否跟上模型推理速度，将是 Gemini Robotics-ER 能否真正落地的关键瓶颈。

值得关注

Gemini Robotics-ER 1.5 的泛化边界：Boston Dynamics 视频中的场景是否经过精选？模型在「未知物体（如形状不规则的玩具）」和「暗光 / 反光地面」条件下的成功率数据尚未公开，需关注后续 Benchmark 报告。
模型推理延迟 vs 实时控制：Gemini 系列模型参数量庞大（≥ 100B），在机器人端侧部署面临 latency 问题。关注 Google 是否提供了量化数据（如每帧动作规划耗时 < 100ms）以及 Spot 实际控制循环的帧率。
商业定价与集成方式：Google 是否计划将 Gemini Robotics-ER 作为云端 API 提供（Bosta Dynamics 用云端推理），还是推进端侧部署（如 NVIDIA Jetson 边缘化）？这将决定延迟上限和使用成本。
竞争对标：Figure AI 与 Physical Intelligence 的跟进：Figure 02 已在 BMW 产线上执行真实任务，其 VLA（Vision-Language-Action）模型与 Gemini Robotics-ER 在家居场景的表现对比将成为行业关注焦点。
监管与安全框架：在家居环境中运行的 AI 控制机器人涉及隐私（摄像头数据）和物理安全（碰撞风险），Google 与 Boston Dynamics 是否发布安全白皮书或寻求 UL/IEC 认证值得关注。

信源行：
原文链接：https://x.com/BostonDynamics/status/2044069050347561172
背景报道：Google DeepMind Gemini Robotics 技术文档；TechCrunch: Boston Dynamics Spot Gets a Multimodal Brain；The Verge: Gemini Robotics-ER Brings AI Reasoning to Physical Robots

本解读由 AI 自动生成，仅供参考。请以原文为准。