向 LLM 输入 <think>，你看到的不是它的思考——是它学到的风格

一、导读：一个看似简单的诊断问题

把字符串「<think>」发给一个大模型，看它返回什么。

如果它生成了一段看起来像推理过程的文字、甚至自动闭合了「</think>」标签，这意味着什么？

直觉上有两种解释：

训练数据泄漏：模型在训练时见过很多「<think>...」格式的内容，把这套行文风格学进了参数里——你看到的不是模型的真实内部思考，是它对这种格式的风格模仿。
信息泄漏：模型本来有一段被刻意隐藏的内部 chain-of-thought（CoT），你的「<think>」字符串以某种方式触发它把那段隐藏内容吐了出来——这是真实的安全事件。

这两个解释，分别对应「模型能力的副作用」和「服务策略的失守」。把它们搞混，要么把训练副作用错认成安全漏洞，要么把真实泄漏错认成普通幻觉。

而要正确解读这个诊断，你需要知道一件事：「<think>」标签在 2026 年并不是某一个模型的专有内部格式，它是整个行业的事实公开协议。 这就是为什么对绝大多数模型而言，「<think> 钓鱼」实验测的其实是训练数据组成，而不是 CoT 信息可见性。

本文拆解三件事：① 主流推理模型 CoT 可见性的三种姿态；② 「<think>」是怎么从一家公司的设计选择变成全行业事实标准的；③ 怎么在实操中区分「风格污染」和「真实泄漏」。

二、`<think>` 是怎么变成行业词汇的

时间点：2025 年 1 月。

DeepSeek 在 arXiv 发布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》^[1]，同步开源 R1 模型权重和训练协议^[2]。这篇论文做的事情之一，是把一段非常具体的输出格式定义为模型行为：

一、导读：一个看似简单的诊断问题

二、<think> 是怎么变成行业词汇的

二、`<think>` 是怎么变成行业词汇的