研究 @_akhaliq 2026-03-19

MolmoPoint：为视觉语言模型带来更精准的定位能力

新论文 MolmoPoint 提出基于 Grounding Tokens 的方法，提升视觉语言模型的指向定位精度，已开源模型和在线演示。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。