VLA真的懂基本常识吗?测量视觉-语言-动作模型的世界知识保留
Act2Answer协议通过让智能体通过物理动作回答问题来评估具身视觉-语言-动作模型,揭示了不同语义类别中的知识保留和泛化模式。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
Act2Answer协议通过让智能体通过物理动作回答问题来评估具身视觉-语言-动作模型,揭示了不同语义类别中的知识保留和泛化模式。
查看原文