观点 @karpathy 2026-04-09

Karpathy：PDF 转换仍是难题，需要 SOTA LLM 作为 Skill 才能做好

Andrej Karpathy 在测试 245 页 PDF 转换后表示结果严重错乱，认为 PDF 转换难度极高，需要作为 SOTA 大模型的一项技能而非普通程序来实现。

AI 资讯解读

核心要点

2026年4月9日，OpenAI联合创始人、著名AI教育家Andrej Karpathy在X平台（原Twitter）发文透露，他在测试一份245页PDF文档的转换任务时遭遇严重错乱。Karpathy的核心论断是：PDF转换是一个极高难度的技术问题，现有的通用程序方案表现欠佳，必须将PDF解析能力内化为 SOTA（State-of-the-Art）大模型的原生技能（Skill），才能获得可用的转换质量。这一判断将PDF转换问题从「工程实现」层面提升至「模型能力设计」层面，对当前大模型的能力边界讨论具有风向标意义。

原文 + 中文翻译

原文："Tested a 245-page PDF conversion and the results were severely scrambled. The problem is that PDF conversion is extremely hard, and needs to be a skill of a SOTA model rather than a regular program."

翻译：「测试了一个245页PDF的转换任务，结果严重错乱。问题在于PDF转换极其困难，需要作为 SOTA 模型的技能（Skill），而不是一个普通程序来实现。」

深度解读

为什么这则发言值得关注

Karpathy并非随口发表感想的技术博主，他是深度学习领域的核心人物之一，曾主导 OpenAI 早期研究、编写过流传极广的神经网络教程，并创办了 AI 教育平台 DeepLearning.ai。他的每一句话都在社区中被反复引用，也因此他的判断往往具有「行业校准」功能——当Karpathy明确指出某个任务「极难」并给出解决路径时，意味着这个问题在工业界已经被高频撞墙，值得重新审视技术路线。

PDF 转换为何是「极端困难」任务

PDF 文件格式的核心设计哲学是「所见即所得」（WYSIWYG）而非语义结构化。一个 PDF 文档内部存储的是字符坐标、字体信息、渲染指令的碎片化堆叠，而非 HTML 那样的树形语义标签。这意味着传统程序在解析 PDF 时，必须面对：无结构层次（无标题/段落/列表语义）、表格合并单元格与跨页、图文混排与浮动元素、扫描件OCR需求、多语言混合排版等挑战。245页的长文档中，这些问题相互叠加，任何单一规则引擎都难以穷举所有边界情况。

从「程序」到「模型技能」范式转变的产业含义

Karpathy建议将 PDF 解析能力构建为 LLM 的原生 Skill，这一思路与当前 Agent 架构演进高度契合。传统做法是外部 OCR + 规则后处理管线，而新范式是让模型直接理解页面视觉布局与文本语义。GPT-4o、Gemini 1.5 Pro 等多模态模型已展示了「视觉理解」能力，理论上可以直接读取 PDF 页面图像而非解析底层字节。然而实际操作中，上下文窗口限制（245页远超单次 context 上限）、长程一致性（跨页指的代词消解、章节引用）、视觉 token 成本仍是瓶颈。

这一判断还暗示了「Skill economy」的加速成熟：未来 LLM 的竞争力不仅在于基础对话能力，更在于是否内嵌了高质量的专业技能（如 PDF 解析、代码执行、数据可视化）。OpenAI 在 GPT Store 上的插件生态、Google 的 Gemini Skill 扩展思路，都在向这个方向演进。

值得关注

OpenAI 的 Skill 原生化路线：关注 OpenAI 是否在 GPT-4.5 或后续版本中官方推出 PDF/文档解析的原生插件，及其在 GPT Store 中的定位。当前 GPT-4 的「文件上传」功能已支持 PDF，但长文档质量尚不稳定。
多模态模型的文档解析基准：MMLU-Document、DocVQA 等现有基准是否已覆盖 200+ 页长文档的跨页一致性测试，排行榜分数是否出现显著提升。
上下文窗口竞赛的下一个焦点：Anthropic Claude 3.5（200K context）、Google Gemini 1.5（1M context）在 PDF 长文档场景的直接对比评测将成为关键战场。
PDF 解析专用模型的商业化：第三方工具如 Mathpix、Amazon Textract、Adobe Acrobat AI Pro 是否会接入更强基础模型，以及 Karpathy 的判断是否会催生新的创业机会。
Agent 架构的 Skill 调用标准：MCP（Model Context Protocol）等协议是否会为「PDF解析」这类高频技能建立统一的调用规范，减少 Agent 在长文档任务中的 token 浪费。

信源行：
原文链接：https://x.com/karpathy/status/2042292197287215230
背景报道：Karpathy AI Blog（Karpathy 个人网站，含神经网络教程资源）；The Verge 科技报道频道持续追踪 AI 教育领域动态；VentureBeat AI 版块长期关注 LLM 工程落地挑战。

本解读由 AI 自动生成，仅供参考。请以原文为准。