JavaScript 已关闭 · 阅读 / 搜索 / RSS / Atom / JSON Feed / LLMs.txt 均可用 · 仅 PWA 安装 / 返回顶部 / 移动底部导航等增强功能依赖 JS

方法论

On-Policy Distillation：小模型为什么突然能做大模型的活儿

从"照着完美答案抄"到"自己做题、老师逐字批改"——一次训练范式的转变，正在让轻量模型以约十分之一的成本逼近大模型推理能力

Pro 限定研报

2026-05-30 12 篇信源读完约 14 分钟

一句话先说清：它到底解决了什么问题

最近半年，"on-policy distillation"（在线策略蒸馏，下文简称 OPD）在大模型团队里很火。Qwen3、DeepSeek、Gemma、小米 MiMo 都在用它训练轻量模型，效果出奇地好，成本还只有传统强化学习的零头。