← 返回资讯
大模型 HuggingFace Daily Papers 2026-07-01

QVal:低成本评估长时程 LLM 智能体的密集监督信号

QVal:低成本评估长时程 LLM 智能体的密集监督信号

QVal 通过测量方法评分与 Q 值对齐程度来评估长时程 LLM 智能体任务中的密集监督信号,无需训练即可公平比较不同监督方法。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。