Paul Graham:ChatGPT 与 Google 为手表年份互相翻供
Paul Graham 尝试用 ChatGPT 与 Google 互相校对一块手表的出厂年份,结果两者反复采纳对方答案来回切换,展示大模型容易被引导的现象。
查看原文核心要点
2026年4月16日,Y Combinator 创始人 Paul Graham 在 X 平台发帖,披露自己进行的一场独特实验:他同时向 ChatGPT 和 Google(推测为 AI Overviews 或 Gemini 集成搜索)询问一块古董手表的出厂年份,结果两个 AI 系统互相引用对方的答案,导致结论在多个版本之间反复横跳。这一实验直观展示了当前大模型在事实性问题上极易被「循环印证」带偏的根本性缺陷。
原文 + 中文翻译
原文:"I asked ChatGPT and Google to agree on the year a watch was made. They kept flip-flopping between answers, each adopting the other's latest guess. It was like watching two drunks leaning on each other to stay upright."
翻译:「我让 ChatGPT 和 Google 就一块手表的出厂年份达成一致。它们在答案之间反复横跳,每一次都采纳对方的最新猜测。这就像看着两个醉汉互相搀扶着保持站立。」
背景: Paul Graham 以「醉汉互倚」的比喻将技术现象文学化,暗示两个 AI 系统在缺乏ground truth(可靠基准)的情况下,其「互相验证」机制实为相互放大错误。
深度解读
「循环印证」揭示的并非 bug,而是架构性缺陷
Paul Graham 的实验之所以值得重视,在于它捕捉到了一个长期被忽视但正在变得致命的问题:当大模型被用于事实性查询(如历史鉴定、专业知识验证)时,传统的「推理链」并不解决根本问题。模型输出的「自信程度」与「事实准确性」之间存在系统性偏差——尤其是在训练数据中缺乏明确标注的细分领域(如古董表款序列号与年份的对应关系)。两个模型互相引用对方的输出,只是在扩散而非收敛一个未知答案。
古董表鉴定的特殊性:长尾知识 + 缺乏权威数据源
选择古董手表作为测试对象并非偶然。制表业的历史鉴定高度依赖品牌档案、序列号编码规则、同时期竞品对比等碎片化信息,这些数据散落于品牌内部记录、拍卖行目录、收藏家社群——几乎没有哪个 AI 模型拥有完整且可验证的训练语料。这意味着 AI 在该领域的「幻觉率」远高于医疗、法律等已被广泛研究的垂直领域。Paul Graham 的实验等于在一个「ground truth 极难获得」的场景下,暴露了 AI 系统最脆弱的一面。
对 AI 应用层的警示:当「AI 搜索」成为主流工具
随着 Google AI Overviews、Perplexity、ChatGPT Search 等产品普及,用户越来越依赖 AI 代理完成研究任务。但 Paul Graham 的实验暗示了一个尚未被充分讨论的风险:当 AI 系统被用于「组合验证」——即让两个 AI 相互校对以提高可信度——这种做法的前提是两个 AI 各自独立拥有接近 ground truth 的知识。在长尾领域,这个前提并不成立。互相引用反而可能制造「高置信度假象」,使用户更难察觉答案的错误。
值得关注
- OpenAI / Google 是否会针对「循环印证」问题在模型层面引入置信度校准机制(如主动标注「低可信度领域」或「长尾查询」)
- 古董表鉴定是否会成为新的「AI 可靠性测试基准」——类似于 MMLU、HLE 在医疗、法律领域的角色
- Paul Graham 后续是否会有更多关于 AI 局限性的实验发布,以及 YC 系的 AI 创业公司如何在产品层面应对此类问题
- 搜索产品(如 Google AI Overviews)在面对「无确定答案」查询时,是否会引入「不确定性声明」而非生成流畅但可能错误的回答
- 拍卖行(如 Christie's、Sotheby's)和制表品牌是否会主动构建 AI 可读的「官方鉴定数据库」,以对抗 AI 搜索带来的信息混乱
信源行:
原文链接:@paulg 推文
背景报道:
· Ars Technica AI 频道 — 持续跟踪大模型幻觉问题的技术报道
· Stratechery — Paul Graham 长期撰写的科技分析,对 AI 可靠性问题有系统性梳理
· WatchPro — 制表行业媒体报道,可交叉验证古董表鉴定的行业痛点