一、导读:一个看似简单的诊断问题
把字符串「<think>」发给一个大模型,看它返回什么。
如果它生成了一段看起来像推理过程的文字、甚至自动闭合了「</think>」标签,这意味着什么?
直觉上有两种解释:
- 训练数据泄漏:模型在训练时见过很多「
<think>...」格式的内容,把这套行文风格学进了参数里——你看到的不是模型的真实内部思考,是它对这种格式的风格模仿。 - 信息泄漏:模型本来有一段被刻意隐藏的内部 chain-of-thought(CoT),你的「
<think>」字符串以某种方式触发它把那段隐藏内容吐了出来——这是真实的安全事件。
这两个解释,分别对应「模型能力的副作用」和「服务策略的失守」。把它们搞混,要么把训练副作用错认成安全漏洞,要么把真实泄漏错认成普通幻觉。
而要正确解读这个诊断,你需要知道一件事:「<think>」标签在 2026 年并不是某一个模型的专有内部格式,它是整个行业的事实公开协议。 这就是为什么对绝大多数模型而言,「<think> 钓鱼」实验测的其实是训练数据组成,而不是 CoT 信息可见性。
本文拆解三件事:① 主流推理模型 CoT 可见性的三种姿态;② 「<think>」是怎么从一家公司的设计选择变成全行业事实标准的;③ 怎么在实操中区分「风格污染」和「真实泄漏」。
二、<think> 是怎么变成行业词汇的
时间点:2025 年 1 月。
DeepSeek 在 arXiv 发布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》[1],同步开源 R1 模型权重和训练协议[2]。这篇论文做的事情之一,是把一段非常具体的输出格式定义为模型行为: