← 返回资讯
观点 @paulg 2026-04-16

Paul Graham:ChatGPT 与 Google 为手表年份互相翻供

Paul Graham 尝试用 ChatGPT 与 Google 互相校对一块手表的出厂年份,结果两者反复采纳对方答案来回切换,展示大模型容易被引导的现象。

查看原文
AI 资讯解读
```html

核心要点

2026年4月16日,Y Combinator 创始人 Paul Graham 在 X 平台发帖,披露自己进行的一场独特实验:他同时向 ChatGPT 和 Google(推测为 AI Overviews 或 Gemini 集成搜索)询问一块古董手表的出厂年份,结果两个 AI 系统互相引用对方的答案,导致结论在多个版本之间反复横跳。这一实验直观展示了当前大模型在事实性问题上极易被「循环印证」带偏的根本性缺陷。

原文 + 中文翻译

原文:"I asked ChatGPT and Google to agree on the year a watch was made. They kept flip-flopping between answers, each adopting the other's latest guess. It was like watching two drunks leaning on each other to stay upright."

翻译:「我让 ChatGPT 和 Google 就一块手表的出厂年份达成一致。它们在答案之间反复横跳,每一次都采纳对方的最新猜测。这就像看着两个醉汉互相搀扶着保持站立。」

背景: Paul Graham 以「醉汉互倚」的比喻将技术现象文学化,暗示两个 AI 系统在缺乏ground truth(可靠基准)的情况下,其「互相验证」机制实为相互放大错误。

深度解读

「循环印证」揭示的并非 bug,而是架构性缺陷

Paul Graham 的实验之所以值得重视,在于它捕捉到了一个长期被忽视但正在变得致命的问题:当大模型被用于事实性查询(如历史鉴定、专业知识验证)时,传统的「推理链」并不解决根本问题。模型输出的「自信程度」与「事实准确性」之间存在系统性偏差——尤其是在训练数据中缺乏明确标注的细分领域(如古董表款序列号与年份的对应关系)。两个模型互相引用对方的输出,只是在扩散而非收敛一个未知答案。

古董表鉴定的特殊性:长尾知识 + 缺乏权威数据源

选择古董手表作为测试对象并非偶然。制表业的历史鉴定高度依赖品牌档案、序列号编码规则、同时期竞品对比等碎片化信息,这些数据散落于品牌内部记录、拍卖行目录、收藏家社群——几乎没有哪个 AI 模型拥有完整且可验证的训练语料。这意味着 AI 在该领域的「幻觉率」远高于医疗、法律等已被广泛研究的垂直领域。Paul Graham 的实验等于在一个「ground truth 极难获得」的场景下,暴露了 AI 系统最脆弱的一面。

对 AI 应用层的警示:当「AI 搜索」成为主流工具

随着 Google AI Overviews、Perplexity、ChatGPT Search 等产品普及,用户越来越依赖 AI 代理完成研究任务。但 Paul Graham 的实验暗示了一个尚未被充分讨论的风险:当 AI 系统被用于「组合验证」——即让两个 AI 相互校对以提高可信度——这种做法的前提是两个 AI 各自独立拥有接近 ground truth 的知识。在长尾领域,这个前提并不成立。互相引用反而可能制造「高置信度假象」,使用户更难察觉答案的错误。

值得关注

信源行:
原文链接:@paulg 推文
背景报道:
· Ars Technica AI 频道 — 持续跟踪大模型幻觉问题的技术报道
· Stratechery — Paul Graham 长期撰写的科技分析,对 AI 可靠性问题有系统性梳理
· WatchPro — 制表行业媒体报道,可交叉验证古董表鉴定的行业痛点

```
本解读由 AI 自动生成,仅供参考。请以原文为准。