← 返回资讯
研究 HuggingFace Daily Papers 2026-07-01

基于元认知反馈的强化学习促使大语言模型准确表达不确定性

基于元认知反馈的强化学习促使大语言模型准确表达不确定性

通过元认知反馈和元认知数据选择进行强化学习,可提升大语言模型的校准能力,使其能够准确进行自我性能评估与不确定性判断。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。