一句话先说清:它到底解决了什么问题
最近半年,"on-policy distillation"(在线策略蒸馏,下文简称 OPD)在大模型团队里很火。Qwen3、DeepSeek、Gemma、小米 MiMo 都在用它训练轻量模型,效果出奇地好,成本还只有传统强化学习的零头。
方法论
从"照着完美答案抄"到"自己做题、老师逐字批改"——一次训练范式的转变,正在让轻量模型以约十分之一的成本逼近大模型推理能力
Pro 限定研报
最近半年,"on-policy distillation"(在线策略蒸馏,下文简称 OPD)在大模型团队里很火。Qwen3、DeepSeek、Gemma、小米 MiMo 都在用它训练轻量模型,效果出奇地好,成本还只有传统强化学习的零头。