观点 @a16z 2026-06-08

李飞飞详解三类世界模型：渲染器、规划器、模拟器

解释"世界模型"被过度使用的原因，阐述三种形态分别对应像素生成、机器人控制及核心的仿真模拟功能。

TL;DR · 观点解读

李飞飞用三层架构拆解「世界模型」概念泡沫：渲染器对应视频生成、规划器对应机器人控制、模拟器才是真正的仿真。这不是学术咬文嚼字，而是关乎千亿美金 Agent 投资方向的路线之争。

深度解读

说话人的历史立场与利益关联

李飞飞是计算机视觉领域的奠基人之一，ImageNet 的发起者，2024 年创办了 World Labs（专注空间智能与 3D 世界模型），同时在 Stanford 主持 HAI（Human-Centered AI Institute）。她的核心利益在于两件事：一是具身智能（Embodied AI）需要真实物理仿真，而不只是生成像素；二是她的创业方向正好落在「模拟器」这一层，因此有强烈的动机重新定义行业术语，将竞争门槛拉高到她最擅长的领域。

这不是中立的学术归纳，而是立场先行的概念重构：将「世界模型」从大语言模型社区抢走的叙事夺回来，嵌入她一贯倡导的「空间智能」框架下。

三类拆解的内在逻辑

李飞飞的分类实际上是在说：当前大多数「世界模型」产品——Sora、Genie、Kling——都是渲染器，即更高级的视频生成器。它们的「世界感」来自统计模式，不是物理因果。规划器层是 Google DeepMind RT 系列和 Figure、1X 等人形机器人公司在做的：将视觉语言模型与机器人动作控制对齐。而真正的模拟器层，需要

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

李飞飞详解三类世界模型 · 2026-06-08
World Models: Navigating the Latent Space · 2018
Fei-Fei Li's Spatial Intelligence Vision · 2024

本解读由 AI 自动生成 · 模板：观点解读 · 仅供参考，请以原文为准。