← 返回资讯
研究 HuggingFace Daily Papers 2026-07-02

状态预测分离假说

状态预测分离假说

在Transformer中将状态预测与token预测分离,可在不同规模下提升语言建模性能和效率。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。