ai-tools

向 LLM 输入 <think>,你看到的不是它的思考——是它学到的风格

推理模型 CoT 可见性三种姿态,与「<think> 钓鱼」实验的正确解读方式

Pro 限定研报

2026-05-15 30 篇信源 读完约 22 分钟

一、导读:一个看似简单的诊断问题

把字符串「<think>」发给一个大模型,看它返回什么。

如果它生成了一段看起来像推理过程的文字、甚至自动闭合了「</think>」标签,这意味着什么?

直觉上有两种解释:

  1. 训练数据泄漏:模型在训练时见过很多「<think>...」格式的内容,把这套行文风格学进了参数里——你看到的不是模型的真实内部思考,是它对这种格式的风格模仿。
  2. 信息泄漏:模型本来有一段被刻意隐藏的内部 chain-of-thought(CoT),你的「<think>」字符串以某种方式触发它把那段隐藏内容吐了出来——这是真实的安全事件。

这两个解释,分别对应「模型能力的副作用」和「服务策略的失守」。把它们搞混,要么把训练副作用错认成安全漏洞,要么把真实泄漏错认成普通幻觉。

而要正确解读这个诊断,你需要知道一件事:<think>」标签在 2026 年并不是某一个模型的专有内部格式,它是整个行业的事实公开协议。 这就是为什么对绝大多数模型而言,「<think> 钓鱼」实验测的其实是训练数据组成,而不是 CoT 信息可见性。

本文拆解三件事:① 主流推理模型 CoT 可见性的三种姿态;② 「<think>」是怎么从一家公司的设计选择变成全行业事实标准的;③ 怎么在实操中区分「风格污染」和「真实泄漏」。

二、<think> 是怎么变成行业词汇的

时间点:2025 年 1 月

DeepSeek 在 arXiv 发布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》[1],同步开源 R1 模型权重和训练协议[2]。这篇论文做的事情之一,是把一段非常具体的输出格式定义为模型行为: