研究 @dotey 2026-06-07

Claude Deep Research 表现不佳，ChatGPT 和 Gemini 更强

深度搜索方面 Claude 表现一般，ChatGPT 的 DeepResearch 效果最佳，Gemini 凭搜索能力也不错，通常两者配合使用对比结果。

TL;DR · 评测解读

一条 X 帖子主观对比了三大 AI 助手的 Deep Research 能力，声称 ChatGPT 最强、Gemini 次之、Claude 垫底。但来源仅为个人用户体验，无测试方法、数据支撑或任务定义，参考价值极低。

深度解读

这条资讯本质上是一条个人用户在 X 平台的吐槽帖。原文没有披露：测试的具体问题/任务是什么？评判标准是准确性、覆盖度还是响应速度？对比了多少轮？每次测试的一致性如何？这些关键元数据全部缺失。

单一样本 + 主观评分 = 零统计效力。没有任何理性研究者会基于一条社交媒体帖子的结论来评判产品能力。常见 benchmark 陷阱在这条资讯里一个不落：

Cherry-picking 风险极高：用户可能只记得最近一次 Claude 出错的案例，而忽略了 ChatGPT 和 Gemini 的失败经历。人类记忆对负面样本有天然偏向。
无控制变量：三次查询是否相同？使用的时间节点是否一致（模型更新频繁）？搜索深度和引用格式是否可比？均未说明。
品牌先验影响判断：如果用户本身偏好 OpenAI，这种偏好会渗透到主观评价中，造成系统性偏差。
零可复现性：没有 prompt、没有数据集、没有评分量规，任何人都无法验证这个结论。

参考来源

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。