← 返回资讯
机器人 @BostonDynamics 2026-04-14

Boston Dynamics:Spot 机器狗搭载 Gemini Robotics-ER 1.5 视觉语言模型整理房间

Boston Dynamics 展示 Spot 搭载 Google DeepMind 的 Gemini Robotics-ER 1.5 VLM 进行家居整理,展现了 AI 模型赋能工业机器人执行日常任务的潜力。

查看原文
AI 资讯解读

核心要点

2026年4月14日,Boston Dynamics 在 X 平台发布演示视频,展示其四足机器人 Spot 集成 Google DeepMind 最新发布的 Gemini Robotics-ER 1.5 视觉语言模型(VLM),执行家居物品整理任务。该演示旨在呈现 VLM 在「通用机器人执行日常非结构化任务」方面的进展,标志着大型视觉语言模型从「对话/感知」向「物理世界操控」的深度延伸。此次展示并非首次尝试,但 Gemini Robotics-ER 1.5 的发布意味着端到端机器人控制从纯规则/模仿学习向「视觉-语言-动作」联合建模的方向迈进。

原文 + 中文翻译

原文:
@BostonDynamics · Apr 14, 2026
"We gave Spot a new brain — powered by Google DeepMind's Gemini Robotics-ER 1.5. Watch it pick up toys, sort items, and navigate a real home. This is what AI + robots looks like in your living room."
翻译:「我们给 Spot 换了一个新大脑——由 Google DeepMind 的 Gemini Robotics-ER 1.5 驱动。看看它如何捡起玩具、分类物品、在真实的家中导航。这就是 AI + 机器人走进客厅的样子。」 原文补充:Google DeepMind 同期发布的 Gemini Robotics-ER 1.5 技术文档将该模型定位为「Extended Reasoning」增强版,专注处理「空间语义理解 + 多步任务规划」,Spot 为其首个公开演示平台。

深度解读

一、VLM 赋能机器人的范式转变

过去五年,工业机器人依赖「预设程序 + 少量视觉反馈」,本质上仍是专用执行器。Gemini Robotics-ER 1.5 的核心突破在于:VLM 提供了「常识推理层」,机器人不再只执行「移动到坐标 A → 抓取 → 移动到坐标 B」的机械序列,而是能将自然语言指令("把沙发上的玩具收到箱子里")转化为动作序列,同时在执行中实时根据视觉反馈调整策略。例如,当 Spot 识别到玩具被遮挡时,模型能推理出「先移开枕头、再抓取」的多步计划。这种能力对于处理真实家居环境的非标准化布局至关重要——没有两间房子是完全一样的,而 VLM 的泛化能力让机器人具备了一定的「场景适应力」而非仅依赖高精地图。

二、Boston Dynamics 的商业路径重塑

Boston Dynamics 历史上以「液压驱动高动态运动」著称(Atlas 演示跑酷),Spot 的商业化进程相对成熟(已用于巡检、救援、建筑监测等场景),但「整理房间」这类消费级 / 家庭场景始终停留在演示阶段。此次借 Gemini Robotics-ER 1.5 发力,Boston Dynamics 实际上在向市场传递一个信号:Spot 不只是工业工具,它正在成为一个「能理解你指令的通用移动平台」。这对潜在客户(养老护理、家庭服务)的采购意愿有直接影响。然而需要注意的是,家居环境的物体多样性、碰撞安全性、人机交互复杂度远高于工业场景,Spot 从「演示可行」到「大规模商业落地」仍有相当距离。

三、多模态大模型与机器人控制的融合竞赛

Gemini Robotics-ER 1.5 的推出让 Google DeepMind 正式加入与 Figure AI(Figure 02)、1X Technologies(Neo)、Physical Intelligence(π₀)的多模态机器人模型竞争。这条赛道的核心争夺点是:谁能在「低成本、零样本泛化、实时控制」三者间取得最优平衡。Figure AI 通过与 OpenAI 合作、Figure 02 已进入实际工作场景;Physical Intelligence 的 π₀ 模型在跨机器人形态泛化上表现突出。Google 的优势在于 Gemini 原生的多模态能力和大规模算力基础设施,但机器人硬件层面(Boston Dynamics 机械设计 + 控制 latency)能否跟上模型推理速度,将是 Gemini Robotics-ER 能否真正落地的关键瓶颈。

值得关注

信源行:
原文链接:https://x.com/BostonDynamics/status/2044069050347561172
背景报道:Google DeepMind Gemini Robotics 技术文档TechCrunch: Boston Dynamics Spot Gets a Multimodal BrainThe Verge: Gemini Robotics-ER Brings AI Reasoning to Physical Robots

本解读由 AI 自动生成,仅供参考。请以原文为准。