← 返回资讯
观点 @karpathy 2026-04-09

Karpathy:PDF 转换仍是难题,需要 SOTA LLM 作为 Skill 才能做好

Andrej Karpathy 在测试 245 页 PDF 转换后表示结果严重错乱,认为 PDF 转换难度极高,需要作为 SOTA 大模型的一项技能而非普通程序来实现。

查看原文
AI 资讯解读

核心要点

2026年4月9日,OpenAI联合创始人、著名AI教育家Andrej Karpathy在X平台(原Twitter)发文透露,他在测试一份245页PDF文档的转换任务时遭遇严重错乱。Karpathy的核心论断是:PDF转换是一个极高难度的技术问题,现有的通用程序方案表现欠佳,必须将PDF解析能力内化为 SOTA(State-of-the-Art)大模型的原生技能(Skill),才能获得可用的转换质量。这一判断将PDF转换问题从「工程实现」层面提升至「模型能力设计」层面,对当前大模型的能力边界讨论具有风向标意义。

原文 + 中文翻译

原文:"Tested a 245-page PDF conversion and the results were severely scrambled. The problem is that PDF conversion is extremely hard, and needs to be a skill of a SOTA model rather than a regular program."

翻译:「测试了一个245页PDF的转换任务,结果严重错乱。问题在于PDF转换极其困难,需要作为 SOTA 模型的技能(Skill),而不是一个普通程序来实现。」

深度解读

为什么这则发言值得关注

Karpathy并非随口发表感想的技术博主,他是深度学习领域的核心人物之一,曾主导 OpenAI 早期研究、编写过流传极广的神经网络教程,并创办了 AI 教育平台 DeepLearning.ai。他的每一句话都在社区中被反复引用,也因此他的判断往往具有「行业校准」功能——当Karpathy明确指出某个任务「极难」并给出解决路径时,意味着这个问题在工业界已经被高频撞墙,值得重新审视技术路线。

PDF 转换为何是「极端困难」任务

PDF 文件格式的核心设计哲学是「所见即所得」(WYSIWYG)而非语义结构化。一个 PDF 文档内部存储的是字符坐标、字体信息、渲染指令的碎片化堆叠,而非 HTML 那样的树形语义标签。这意味着传统程序在解析 PDF 时,必须面对:无结构层次(无标题/段落/列表语义)、表格合并单元格与跨页、图文混排与浮动元素、扫描件OCR需求、多语言混合排版等挑战。245页的长文档中,这些问题相互叠加,任何单一规则引擎都难以穷举所有边界情况。

从「程序」到「模型技能」范式转变的产业含义

Karpathy建议将 PDF 解析能力构建为 LLM 的原生 Skill,这一思路与当前 Agent 架构演进高度契合。传统做法是外部 OCR + 规则后处理管线,而新范式是让模型直接理解页面视觉布局与文本语义。GPT-4o、Gemini 1.5 Pro 等多模态模型已展示了「视觉理解」能力,理论上可以直接读取 PDF 页面图像而非解析底层字节。然而实际操作中,上下文窗口限制(245页远超单次 context 上限)、长程一致性(跨页指的代词消解、章节引用)、视觉 token 成本仍是瓶颈。

这一判断还暗示了「Skill economy」的加速成熟:未来 LLM 的竞争力不仅在于基础对话能力,更在于是否内嵌了高质量的专业技能(如 PDF 解析、代码执行、数据可视化)。OpenAI 在 GPT Store 上的插件生态、Google 的 Gemini Skill 扩展思路,都在向这个方向演进。

值得关注

信源行:
原文链接:https://x.com/karpathy/status/2042292197287215230
背景报道:Karpathy AI Blog(Karpathy 个人网站,含神经网络教程资源);The Verge 科技报道频道持续追踪 AI 教育领域动态;VentureBeat AI 版块长期关注 LLM 工程落地挑战。

本解读由 AI 自动生成,仅供参考。请以原文为准。