李飞飞用三层架构拆解「世界模型」概念泡沫:渲染器对应视频生成、规划器对应机器人控制、模拟器才是真正的仿真。这不是学术咬文嚼字,而是关乎千亿美金 Agent 投资方向的路线之争。
说话人的历史立场与利益关联
李飞飞是计算机视觉领域的奠基人之一,ImageNet 的发起者,2024 年创办了 World Labs(专注空间智能与 3D 世界模型),同时在 Stanford 主持 HAI(Human-Centered AI Institute)。她的核心利益在于两件事:一是具身智能(Embodied AI)需要真实物理仿真,而不只是生成像素;二是她的创业方向正好落在「模拟器」这一层,因此有强烈的动机重新定义行业术语,将竞争门槛拉高到她最擅长的领域。
这不是中立的学术归纳,而是立场先行的概念重构:将「世界模型」从大语言模型社区抢走的叙事夺回来,嵌入她一贯倡导的「空间智能」框架下。
三类拆解的内在逻辑
李飞飞的分类实际上是在说:当前大多数「世界模型」产品——Sora、Genie、Kling——都是渲染器,即更高级的视频生成器。它们的「世界感」来自统计模式,不是物理因果。规划器层是 Google DeepMind RT 系列和 Figure、1X 等人形机器人公司在做的:将视觉语言模型与机器人动作控制对齐。而真正的模拟器层,需要
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- 李飞飞详解三类世界模型 · 2026-06-08
- World Models: Navigating the Latent Space · 2018
- Fei-Fei Li's Spatial Intelligence Vision · 2024