观点 @paulg 2026-04-16

Paul Graham：ChatGPT 与 Google 为手表年份互相翻供

Paul Graham 尝试用 ChatGPT 与 Google 互相校对一块手表的出厂年份，结果两者反复采纳对方答案来回切换，展示大模型容易被引导的现象。

AI 资讯解读

```html

核心要点

2026年4月16日，Y Combinator 创始人 Paul Graham 在 X 平台发帖，披露自己进行的一场独特实验：他同时向 ChatGPT 和 Google（推测为 AI Overviews 或 Gemini 集成搜索）询问一块古董手表的出厂年份，结果两个 AI 系统互相引用对方的答案，导致结论在多个版本之间反复横跳。这一实验直观展示了当前大模型在事实性问题上极易被「循环印证」带偏的根本性缺陷。

原文 + 中文翻译

原文："I asked ChatGPT and Google to agree on the year a watch was made. They kept flip-flopping between answers, each adopting the other's latest guess. It was like watching two drunks leaning on each other to stay upright."

翻译：「我让 ChatGPT 和 Google 就一块手表的出厂年份达成一致。它们在答案之间反复横跳，每一次都采纳对方的最新猜测。这就像看着两个醉汉互相搀扶着保持站立。」

背景： Paul Graham 以「醉汉互倚」的比喻将技术现象文学化，暗示两个 AI 系统在缺乏ground truth（可靠基准）的情况下，其「互相验证」机制实为相互放大错误。

深度解读

「循环印证」揭示的并非 bug，而是架构性缺陷

Paul Graham 的实验之所以值得重视，在于它捕捉到了一个长期被忽视但正在变得致命的问题：当大模型被用于事实性查询（如历史鉴定、专业知识验证）时，传统的「推理链」并不解决根本问题。模型输出的「自信程度」与「事实准确性」之间存在系统性偏差——尤其是在训练数据中缺乏明确标注的细分领域（如古董表款序列号与年份的对应关系）。两个模型互相引用对方的输出，只是在扩散而非收敛一个未知答案。

古董表鉴定的特殊性：长尾知识 + 缺乏权威数据源

选择古董手表作为测试对象并非偶然。制表业的历史鉴定高度依赖品牌档案、序列号编码规则、同时期竞品对比等碎片化信息，这些数据散落于品牌内部记录、拍卖行目录、收藏家社群——几乎没有哪个 AI 模型拥有完整且可验证的训练语料。这意味着 AI 在该领域的「幻觉率」远高于医疗、法律等已被广泛研究的垂直领域。Paul Graham 的实验等于在一个「ground truth 极难获得」的场景下，暴露了 AI 系统最脆弱的一面。

对 AI 应用层的警示：当「AI 搜索」成为主流工具

随着 Google AI Overviews、Perplexity、ChatGPT Search 等产品普及，用户越来越依赖 AI 代理完成研究任务。但 Paul Graham 的实验暗示了一个尚未被充分讨论的风险：当 AI 系统被用于「组合验证」——即让两个 AI 相互校对以提高可信度——这种做法的前提是两个 AI 各自独立拥有接近 ground truth 的知识。在长尾领域，这个前提并不成立。互相引用反而可能制造「高置信度假象」，使用户更难察觉答案的错误。

值得关注

OpenAI / Google 是否会针对「循环印证」问题在模型层面引入置信度校准机制（如主动标注「低可信度领域」或「长尾查询」）
古董表鉴定是否会成为新的「AI 可靠性测试基准」——类似于 MMLU、HLE 在医疗、法律领域的角色
Paul Graham 后续是否会有更多关于 AI 局限性的实验发布，以及 YC 系的 AI 创业公司如何在产品层面应对此类问题
搜索产品（如 Google AI Overviews）在面对「无确定答案」查询时，是否会引入「不确定性声明」而非生成流畅但可能错误的回答
拍卖行（如 Christie's、Sotheby's）和制表品牌是否会主动构建 AI 可读的「官方鉴定数据库」，以对抗 AI 搜索带来的信息混乱

信源行：
原文链接：@paulg 推文
背景报道：
· Ars Technica AI 频道 — 持续跟踪大模型幻觉问题的技术报道
· Stratechery — Paul Graham 长期撰写的科技分析，对 AI 可靠性问题有系统性梳理
· WatchPro — 制表行业媒体报道，可交叉验证古董表鉴定的行业痛点

```

本解读由 AI 自动生成，仅供参考。请以原文为准。