让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
GuidedVLA:以目标、阶段和空间约束,重塑 VLA 动作生成过程。 作者丨郑佳美 编辑丨马晓宁 机器人要进入更复杂的真实环境,真正的难点已经超出“能不能完成一个动作”。 更关键的问题是:当桌面变得杂乱、光照发生变化、任务步骤变长,或者目标物体变得透明、难以定位时,机器人能否稳定判断自己该看哪里、该做哪一步、空间位置是否准确。 这也是视觉-语言-动作模型(VLA)正在面对的核心挑战。VLA 可
查看原文复旦等提出 GuidedVLA,通过目标/阶段/空间三重约束引导 VLA 动作生成,试图解决 VLA 在复杂场景下的"该看哪里、该做什么、位置对不对"三大不确定性难题。这是将 VLA 从 Demo 可用推向真实部署的一次有意义的可控性尝试,但落地效果仍待验证。
研究背景与核心问题定位
这篇资讯介绍的是复旦等机构的GuidedVLA工作,核心解决的问题是:当前 VLA(视觉-语言-动作模型)在真实复杂环境中的稳定性与可解释性不足。具体表现为三大痛点——杂乱场景下的注意力漂移、光照变化导致视觉退化、透明或难以定位物体带来的空间不确定性。
雷锋网的报道将问题定位为"真正的难点已经超出能不能完成一个动作",这句话背后隐含的判断是:VLA 的感知-决策链路是当前瓶颈,而非动作执行本身。这个判断在机器人学术界有一定共识,但并非没有争议。
研究团队的历史立场与技术偏好
从资讯中可以推断,复旦团队采取了模块化引导的路线,而非端到端的 scaling 路线。具体用三层约束(Goal / Phase / Spatial)显式注入任务结构信息,等于承认当前 VLMs 的隐式推理不足以支撑复杂长程任务。
这种立场的潜台词是:在 VLA 能力边界明确之前,结构化约束是性价比最高的可控性解法。这与 DeepMind/Robotica 押注 GPT-4o 式大一统模型的路径形成对比。
反共识 push back
① 约束工程是否会成为
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- 让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力 · 2026-06-08
- VLA (Vision-Language-Action) Models Survey · 2024-01-23