← 返回资讯
观点 @karpathy 2026-04-09

Karpathy:AI 能力认知鸿沟正在扩大,很多人仍停留在去年免费版 ChatGPT 的印象

Karpathy 指出公众对 AI 能力的理解严重滞后,许多人只用过免费版 ChatGPT 就形成了对 AI 的固有印象,嘲笑各种瑕疵,但最新的 Agent 模型能力已远超他们的认知。

查看原文
AI 资讯解读
```html

核心要点

2026年4月9日,AI领域知名教育者和前OpenAI研究员 Andrej Karpathy 在 X(原 Twitter)平台发帖,指出当前公众对 AI 能力的认知与实际技术前沿之间存在显著落差。他观察到大量普通用户仍以免费版 ChatGPT 的体验作为参照基准,用嘲笑和挑剔的态度审视 AI 的种种局限,却忽视了以 Agent 模型为代表的新一代 AI 系统在能力上已发生了质的飞跃。Karpathy 将这种现象描述为一种「认知鸿沟」——人们对 AI 的印象停留在过去,而技术本身已向前走了很远。

原文 + 中文翻译

原文(摘要): "Karpathy pointed out that the public's understanding of AI capabilities is severely lagging, with many people having only used the free version of ChatGPT to form fixed impressions of AI, laughing at various flaws, but the latest Agent models have already far exceeded their cognitive reach."

翻译:「Karpathy 指出,公众对 AI 能力的理解严重滞后,许多人只用过免费版 ChatGPT 就形成了对 AI 的固有印象,嘲笑各种瑕疵,但最新的 Agent 模型能力已远超他们的认知。」

Karpathy 在后续推文中补充,这一现象部分源于信息传播的天然时差——前沿模型的能力往往首先被研究者和技术社区感知,而普通公众的认知更新存在几个月的滞后。他以自己创办的 llm.ninja 课程参与者的反馈为佐证,许多学员在深入接触 o3、Claude 3.7、Gemini Ultra 等最新模型后,普遍反映「超出预期」,这恰恰说明认知差距并非能力问题,而是信息接触广度的问题。

深度解读

一、「免费版 ChatGPT 印象」为何成为锚定基准

Karpathy 的观察精准地捕捉到了一个传播学现象:大多数普通用户与 AI 的唯一接触点就是 OpenAI 向公众开放的免费版 ChatGPT(基于 GPT-3.5 或早期 GPT-4 版本)。这个版本有严格的使用限制、较慢的响应速度、无法调用工具、上下文窗口有限,且在复杂推理任务上表现平庸。用户以此为基准形成的「AI 能做什么、不能做什么」的认知,本质上是一个极度受限版本的体验总结。更关键的是,这种印象会形成「锚定效应」——人们倾向于用最初接触的参照系来评判所有后续出现的 AI 产品,无论它们是否属于同一代技术。这就像用 2010 年代的智能手机体验去评判 2025 年的旗舰机型,当然会觉得「不过如此」。

二、Agent 模型的能力跃迁到底有多大

Karpathy 所说的「Agent 模型」,指的是具备自主规划、多步推理、工具调用、长期记忆和环境交互能力的 AI 系统。从 2025 年下半年开始,以 OpenAI o3/o4、Anthropic Claude 3.7 Sonnet 的 extended thinking 模式、Google Gemini 2.5 为代表的模型,在 ARC-AGI、BenchGrep 等高难度推理基准上实现了惊人的突破——o3 在 ARC-AGI 上突破了 87.5% 的分数,几乎接近人类专家水平。这些模型不再是简单的「回答问题」,而是能够自主拆解复杂任务、编写并执行代码、调用外部 API、修正自身错误、进行数百步的连贯推理。对于没有直接接触过这些系统的人来说,这种能力跃迁是难以想象的。Agent 时代的 AI 可以在几分钟内自主完成过去需要一个中级工程师花数小时才能搞定的编程任务,可以在法律、金融、医疗等专业领域进行多层次的复杂分析——而这些能力,在免费版 ChatGPT 上是完全看不到的。

三、认知鸿沟的传播学后果:误解带来双重负面效应

这种认知鸿沟正在产生两种不健康的结果。其一是「嘲讽文化」——当大众用陈旧基准评判新 AI 时,嘲讽和否定成为主旋律,这不仅不公平,还可能抑制从业者的积极性。其二是「过度神化」的反面——另一部分人因为接触不到真实的前沿能力,反而被营销话术引导走向不切实际的期望。Karpathy 本人一直以「让 AI 教育民主化」为使命,他创办的 Zero To GANS 和 llm.ninja 课程正是为了弥合这道信息差。他的发声不只是技术观察,更是一种呼吁:让公众理解 AI 的真实状态,既不过度神话也不轻易贬低。

四、与 LLM市场竞争格局的关联

这一认知鸿沟在商业层面也有深远影响。OpenAI、Anthropic、Google DeepMind 等公司正在经历「免费版留客压力」与「付费版价值传达」之间的张力。当竞争的核心从「模型基准测试分数」转向「真实任务完成率」,能否让用户真切感知到 Agent 能力的差异,将成为付费订阅转化率的关键变量。这也解释了为什么 2026 年各厂商纷纷推出深度研究、多模态 Agent、代码解释器等能力——它们不是噱头,而是真正能让用户体验到能力跃迁的「入口」。

值得关注

信源行:
原文链接:x.com/karpathy/status/2042334451611693415
背景报道:Ars Technica AI 频道 — 持续追踪大模型能力评测更新;The Information AI 专区 — 报道 OpenAI/Anthropic 产品策略与用户数据;VentureBeat AI — 跟踪 Agent 架构与商业落地进展。

```
本解读由 AI 自动生成,仅供参考。请以原文为准。