← 返回资讯
行业 雷锋网 2026-06-08

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

GuidedVLA:以目标、阶段和空间约束,重塑 VLA 动作生成过程。 作者丨郑佳美 编辑丨马晓宁 机器人要进入更复杂的真实环境,真正的难点已经超出“能不能完成一个动作”。 更关键的问题是:当桌面变得杂乱、光照发生变化、任务步骤变长,或者目标物体变得透明、难以定位时,机器人能否稳定判断自己该看哪里、该做哪一步、空间位置是否准确。 这也是视觉-语言-动作模型(VLA)正在面对的核心挑战。VLA 可

查看原文
TL;DR · 观点解读

复旦等提出 GuidedVLA,通过目标/阶段/空间三重约束引导 VLA 动作生成,试图解决 VLA 在复杂场景下的"该看哪里、该做什么、位置对不对"三大不确定性难题。这是将 VLA 从 Demo 可用推向真实部署的一次有意义的可控性尝试,但落地效果仍待验证。

深度解读

研究背景与核心问题定位

这篇资讯介绍的是复旦等机构的GuidedVLA工作,核心解决的问题是:当前 VLA(视觉-语言-动作模型)在真实复杂环境中的稳定性与可解释性不足。具体表现为三大痛点——杂乱场景下的注意力漂移、光照变化导致视觉退化、透明或难以定位物体带来的空间不确定性。

雷锋网的报道将问题定位为"真正的难点已经超出能不能完成一个动作",这句话背后隐含的判断是:VLA 的感知-决策链路是当前瓶颈,而非动作执行本身。这个判断在机器人学术界有一定共识,但并非没有争议。

研究团队的历史立场与技术偏好

从资讯中可以推断,复旦团队采取了模块化引导的路线,而非端到端的 scaling 路线。具体用三层约束(Goal / Phase / Spatial)显式注入任务结构信息,等于承认当前 VLMs 的隐式推理不足以支撑复杂长程任务。

这种立场的潜台词是:在 VLA 能力边界明确之前,结构化约束是性价比最高的可控性解法。这与 DeepMind/Robotica 押注 GPT-4o 式大一统模型的路径形成对比。

反共识 push back

约束工程是否会成为

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. 让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力 · 2026-06-08
  2. VLA (Vision-Language-Action) Models Survey · 2024-01-23
本解读由 AI 自动生成 · 模板:观点解读 · 仅供参考,请以原文为准。