← 返回资讯
芯片 @lmsysorg 2026-06-09

LMSys解析Token-In-Token-Out:保持训练推理一致

TITO确保训练评估与推理产生的token完全对应,单样本即可覆盖多轮轨迹,显著降低计算量并避免off‑policy漂移。

查看原文
TL;DR · 事件解读

LMSys 发布 TITO 方案,通过确保训练评估与推理生成的 Token 完全对应,用单样本覆盖多轮轨迹,计算量大幅降低且避免 off-policy 漂移,是对齐 RL 训练流程的重要突破。

深度解读

事件维度:LMSys 正式提出 TITO 对齐框架

2026 年 6 月 9 日,LMSys(Large Model Systems Organization)在 X 平台发布了一项重要研究——Token-In-Token-Out(TITO)。该方案的核心目标是解决训练评估与实际推理之间的 Token 不一致问题:传统 RL 训练中,模型在训练阶段评估使用的 Token 与推理阶段实际生成的 Token 存在偏差,导致 off-policy 漂移(off-policy drift),严重影响 reward 信号准确性。

TITO 的设计哲学是保持训练与推理的 Token 生成完全对应,即训练时"喂进去"的 Token 就是推理时"吐出来"的 Token,两者天然对齐。这意味着单一样本即可覆盖完整的多轮对话轨迹,无需额外采样,从而显著降低计算开销。

行业影响:有望重塑 RL 训练流程

从行业影响来看,TITO 直指当前大模型 RLHF(人类反馈强化学习)训练中reward model 评估与实际生成不一致这一核心痛点。off-policy 漂移问题在长上下文对话、长思维链(Long-CoT)场景下尤为突出——随着推理步数增

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. LMSys 原文发布 · 2026-06-09
  2. LMSys 官方配图 · 2026-06-09
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。