芯片 @lmsysorg 2026-06-09

LMSys解析Token-In-Token-Out：保持训练推理一致

TITO确保训练评估与推理产生的token完全对应，单样本即可覆盖多轮轨迹，显著降低计算量并避免off‑policy漂移。

TL;DR · 事件解读

LMSys 发布 TITO 方案，通过确保训练评估与推理生成的 Token 完全对应，用单样本覆盖多轮轨迹，计算量大幅降低且避免 off-policy 漂移，是对齐 RL 训练流程的重要突破。

深度解读

事件维度：LMSys 正式提出 TITO 对齐框架

2026 年 6 月 9 日，LMSys（Large Model Systems Organization）在 X 平台发布了一项重要研究——Token-In-Token-Out（TITO）。该方案的核心目标是解决训练评估与实际推理之间的 Token 不一致问题：传统 RL 训练中，模型在训练阶段评估使用的 Token 与推理阶段实际生成的 Token 存在偏差，导致 off-policy 漂移（off-policy drift），严重影响 reward 信号准确性。

TITO 的设计哲学是保持训练与推理的 Token 生成完全对应，即训练时"喂进去"的 Token 就是推理时"吐出来"的 Token，两者天然对齐。这意味着单一样本即可覆盖完整的多轮对话轨迹，无需额外采样，从而显著降低计算开销。

行业影响：有望重塑 RL 训练流程

从行业影响来看，TITO 直指当前大模型 RLHF（人类反馈强化学习）训练中reward model 评估与实际生成不一致这一核心痛点。off-policy 漂移问题在长上下文对话、长思维链（Long-CoT）场景下尤为突出——随着推理步数增

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

LMSys 原文发布 · 2026-06-09
LMSys 官方配图 · 2026-06-09

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。