← 返回资讯
观点 @a16z 2026-06-08

李飞飞详解三类世界模型:渲染器、规划器、模拟器

解释"世界模型"被过度使用的原因,阐述三种形态分别对应像素生成、机器人控制及核心的仿真模拟功能。

查看原文
TL;DR · 观点解读

李飞飞用三层架构拆解「世界模型」概念泡沫:渲染器对应视频生成、规划器对应机器人控制、模拟器才是真正的仿真。这不是学术咬文嚼字,而是关乎千亿美金 Agent 投资方向的路线之争。

深度解读

说话人的历史立场与利益关联

李飞飞是计算机视觉领域的奠基人之一,ImageNet 的发起者,2024 年创办了 World Labs(专注空间智能与 3D 世界模型),同时在 Stanford 主持 HAI(Human-Centered AI Institute)。她的核心利益在于两件事:一是具身智能(Embodied AI)需要真实物理仿真,而不只是生成像素;二是她的创业方向正好落在「模拟器」这一层,因此有强烈的动机重新定义行业术语,将竞争门槛拉高到她最擅长的领域。

这不是中立的学术归纳,而是立场先行的概念重构:将「世界模型」从大语言模型社区抢走的叙事夺回来,嵌入她一贯倡导的「空间智能」框架下。

三类拆解的内在逻辑

李飞飞的分类实际上是在说:当前大多数「世界模型」产品——Sora、Genie、Kling——都是渲染器,即更高级的视频生成器。它们的「世界感」来自统计模式,不是物理因果。规划器层是 Google DeepMind RT 系列和 Figure、1X 等人形机器人公司在做的:将视觉语言模型与机器人动作控制对齐。而真正的模拟器层,需要

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. 李飞飞详解三类世界模型 · 2026-06-08
  2. World Models: Navigating the Latent Space · 2018
  3. Fei-Fei Li's Spatial Intelligence Vision · 2024
本解读由 AI 自动生成 · 模板:观点解读 · 仅供参考,请以原文为准。