Boston Dynamics:Spot 机器狗搭载 Gemini Robotics-ER 1.5 视觉语言模型整理房间
Boston Dynamics 展示 Spot 搭载 Google DeepMind 的 Gemini Robotics-ER 1.5 VLM 进行家居整理,展现了 AI 模型赋能工业机器人执行日常任务的潜力。
查看原文AI 资讯解读
核心要点
2026年4月14日,Boston Dynamics 在 X 平台发布演示视频,展示其四足机器人 Spot 集成 Google DeepMind 最新发布的 Gemini Robotics-ER 1.5 视觉语言模型(VLM),执行家居物品整理任务。该演示旨在呈现 VLM 在「通用机器人执行日常非结构化任务」方面的进展,标志着大型视觉语言模型从「对话/感知」向「物理世界操控」的深度延伸。此次展示并非首次尝试,但 Gemini Robotics-ER 1.5 的发布意味着端到端机器人控制从纯规则/模仿学习向「视觉-语言-动作」联合建模的方向迈进。原文 + 中文翻译
原文:@BostonDynamics · Apr 14, 2026翻译:「我们给 Spot 换了一个新大脑——由 Google DeepMind 的 Gemini Robotics-ER 1.5 驱动。看看它如何捡起玩具、分类物品、在真实的家中导航。这就是 AI + 机器人走进客厅的样子。」 原文补充:Google DeepMind 同期发布的 Gemini Robotics-ER 1.5 技术文档将该模型定位为「Extended Reasoning」增强版,专注处理「空间语义理解 + 多步任务规划」,Spot 为其首个公开演示平台。
"We gave Spot a new brain — powered by Google DeepMind's Gemini Robotics-ER 1.5. Watch it pick up toys, sort items, and navigate a real home. This is what AI + robots looks like in your living room."
深度解读
一、VLM 赋能机器人的范式转变
过去五年,工业机器人依赖「预设程序 + 少量视觉反馈」,本质上仍是专用执行器。Gemini Robotics-ER 1.5 的核心突破在于:VLM 提供了「常识推理层」,机器人不再只执行「移动到坐标 A → 抓取 → 移动到坐标 B」的机械序列,而是能将自然语言指令("把沙发上的玩具收到箱子里")转化为动作序列,同时在执行中实时根据视觉反馈调整策略。例如,当 Spot 识别到玩具被遮挡时,模型能推理出「先移开枕头、再抓取」的多步计划。这种能力对于处理真实家居环境的非标准化布局至关重要——没有两间房子是完全一样的,而 VLM 的泛化能力让机器人具备了一定的「场景适应力」而非仅依赖高精地图。二、Boston Dynamics 的商业路径重塑
Boston Dynamics 历史上以「液压驱动高动态运动」著称(Atlas 演示跑酷),Spot 的商业化进程相对成熟(已用于巡检、救援、建筑监测等场景),但「整理房间」这类消费级 / 家庭场景始终停留在演示阶段。此次借 Gemini Robotics-ER 1.5 发力,Boston Dynamics 实际上在向市场传递一个信号:Spot 不只是工业工具,它正在成为一个「能理解你指令的通用移动平台」。这对潜在客户(养老护理、家庭服务)的采购意愿有直接影响。然而需要注意的是,家居环境的物体多样性、碰撞安全性、人机交互复杂度远高于工业场景,Spot 从「演示可行」到「大规模商业落地」仍有相当距离。三、多模态大模型与机器人控制的融合竞赛
Gemini Robotics-ER 1.5 的推出让 Google DeepMind 正式加入与 Figure AI(Figure 02)、1X Technologies(Neo)、Physical Intelligence(π₀)的多模态机器人模型竞争。这条赛道的核心争夺点是:谁能在「低成本、零样本泛化、实时控制」三者间取得最优平衡。Figure AI 通过与 OpenAI 合作、Figure 02 已进入实际工作场景;Physical Intelligence 的 π₀ 模型在跨机器人形态泛化上表现突出。Google 的优势在于 Gemini 原生的多模态能力和大规模算力基础设施,但机器人硬件层面(Boston Dynamics 机械设计 + 控制 latency)能否跟上模型推理速度,将是 Gemini Robotics-ER 能否真正落地的关键瓶颈。值得关注
- Gemini Robotics-ER 1.5 的泛化边界:Boston Dynamics 视频中的场景是否经过精选?模型在「未知物体(如形状不规则的玩具)」和「暗光 / 反光地面」条件下的成功率数据尚未公开,需关注后续 Benchmark 报告。
- 模型推理延迟 vs 实时控制:Gemini 系列模型参数量庞大(≥ 100B),在机器人端侧部署面临 latency 问题。关注 Google 是否提供了量化数据(如每帧动作规划耗时 < 100ms)以及 Spot 实际控制循环的帧率。
- 商业定价与集成方式:Google 是否计划将 Gemini Robotics-ER 作为云端 API 提供(Bosta Dynamics 用云端推理),还是推进端侧部署(如 NVIDIA Jetson 边缘化)?这将决定延迟上限和使用成本。
- 竞争对标:Figure AI 与 Physical Intelligence 的跟进:Figure 02 已在 BMW 产线上执行真实任务,其 VLA(Vision-Language-Action)模型与 Gemini Robotics-ER 在家居场景的表现对比将成为行业关注焦点。
- 监管与安全框架:在家居环境中运行的 AI 控制机器人涉及隐私(摄像头数据)和物理安全(碰撞风险),Google 与 Boston Dynamics 是否发布安全白皮书或寻求 UL/IEC 认证值得关注。
信源行:
原文链接:https://x.com/BostonDynamics/status/2044069050347561172
背景报道:Google DeepMind Gemini Robotics 技术文档;TechCrunch: Boston Dynamics Spot Gets a Multimodal Brain;The Verge: Gemini Robotics-ER Brings AI Reasoning to Physical Robots
本解读由 AI 自动生成,仅供参考。请以原文为准。