← 返回资讯
研究 @_akhaliq 2026-03-19

MolmoPoint:为视觉语言模型带来更精准的定位能力

新论文 MolmoPoint 提出基于 Grounding Tokens 的方法,提升视觉语言模型的指向定位精度,已开源模型和在线演示。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。