李飞飞：空间智能是人工智能的下一个前沿

cover

摘要

李飞飞（Fei-Fei Li）是斯坦福大学计算机科学教授、ImageNet 的创造者，被誉为"AI 教母"。本次对话回顾了她从创建 ImageNet 到创立 World Labs 的完整历程，阐释了空间智能（Spatial Intelligence）为何是 AI 的下一个根本性前沿。她指出，视觉智能不仅是感知，更是理解和作用于世界的能力。从进化角度看，语言能力的演化耗时不足百万年，而视觉与空间理解能力的演化则跨越了 5.4 亿年——从三叶虫首次在水下发展出视觉开始，便引爆了进化军备竞赛。她认为，AGI 若缺乏空间智能将是不完整的。World Labs 致力于构建超越扁平像素和语言的世界模型（World Model），真正捕获三维结构。她还分享了个人经历——19 岁移民美国、经营干洗店七年支撑家庭与学业、从学术界转向创业——以及对"智识无畏"（Intellectual Fearlessness）人才标准的坚持，鼓励年轻创业者勇敢面对困难、脚踏实地构建未来。

正文

从 ImageNet 的诞生说起

李飞飞在对话伊始回顾了 ImageNet 的诞生背景。2007 年前后，她还是普林斯顿大学刚入职的助理教授。彼时 AI 与机器学习（Machine Learning）领域与今日截然不同：数据极度匮乏，计算机视觉（Computer Vision）算法几乎无法运作，公众甚至不知道 AI 这个词的存在。但自 AI 奠基人约翰·麦卡锡（John McCarthy）到杰弗里·辛顿（Geoffrey Hinton），始终有一群人怀抱着让机器思考与工作的梦想。李飞飞个人的梦想是让机器"看见"——因为视觉智能（Visual Intelligence）是智能的基石，它不仅是感知，更是理解世界并在世界中行动的能力。

她痴迷于让机器看见的问题，尝试过神经网络（Neural Network）、贝叶斯网络（Bayes Net）、支持向量机（Support Vector Machine）等各类算法，但泛化（Generalization）问题始终困扰着她。泛化是机器学习的核心数学基础与目标，而要实现泛化，算法需要数据——当时计算机视觉领域却无人拥有数据。作为第一代接触互联网的研究生，李飞飞看到了互联网这一"大数据源"的潜力。

2007 年左右，她与学生做出了一个大胆的决定：必须推动机器学习的范式转换（Paradigm Shift），以数据驱动方法（Data-Driven Method）引领这一转变。他们的计划是从互联网下载十亿张图像，建立全球完整的视觉分类体系（Visual Taxonomy），并以此训练和基准测试机器学习算法——这就是 ImageNet 的起源。

AlexNet 时刻：数据、算法与算力的汇聚

ImageNet 于 2009 年以一篇 CVPR 海报论文首次发表。此后三年间，团队坚信数据驱动 AI 的方向，但收到的信号极为微弱。为此，他们做了两件关键的事：一是从一开始就将 ImageNet 开源（Open Source）给整个研究社区；二是创建竞赛——ImageNet 挑战赛（ImageNet Challenge），每年发布测试数据集，邀请全球最优秀的学生和研究者参与。

最初几年的成绩仅设置了基线，错误率在 30% 左右。但 2012 年的夏天，一切发生了改变。李飞飞回忆道，某天深夜她收到研究生的消息，称出现了一个极为突出的结果。团队仔细查看后发现，这是一个卷积神经网络（Convolutional Neural Network）——由辛顿团队的"Supervision"（巧妙地融合了"super"与"supervised learning"的双关语）提交。卷积神经网络并非新算法，早在 1980 年代就已发表，但此次结果出现了阶跃式变化。

更重要的是，AlexNet 不仅是算法的突破，也是首次将两块 GPU 组合起来用于深度学习计算。因此，2012 年那个时刻，标志着数据、GPU 算力和神经网络三者的历史性汇聚。在意大利佛罗伦萨的 ICCV 会议上，Alex Krizhevsky 和众多研究者出席，这个时刻后来被世界称为"ImageNet 挑战赛的 AlexNet 时刻"。

从物体识别到场景理解

ImageNet 解决的是物体识别（Object Recognition）问题——给一张图，识别出猫、椅子等物体。但李飞飞从研究生时期就怀有一个更大的梦想：场景讲故事（Storytelling of the World）。人类睁开眼睛看到的不是一个个孤立的"人、椅子、椅子"，而是一个完整的场景——会议室、屏幕、舞台、人群、摄像机，并能描述整个场景。这种能力是视觉智能的基础，对日常生活至关重要。

她曾以为这是需要穷尽一生才能解决的问题——在研究生毕业时告诉自己，如果临终前能创造出一个讲述场景故事的算法，便算成功。然而 AlexNet 之后深度学习飞速发展，当 Andrej Karpathy 和 Justin Johnson 进入她的实验室后，自然语言与视觉开始碰撞。2015 年左右，Andrej 与李飞飞发表了一系列图像描述（Image Captioning）论文，首次让计算机为图像生成文字描述。那一刻她几乎感到茫然——终身目标就这样实现了。

她还打趣地提到，当时曾对 Andrej 说："我们何不做反向的事——输入一句话，生成一张图？"Andrej 笑着回答"我可不干了"。那时的世界尚未准备好，但如今生成式 AI（Generative AI）已能从文字生成精美图片，这一切令她深感幸运——她的整个职业生涯恰好从 AI 寒冬的尾声开始，亲历并推动了 AI 的崛起。

空间智能：从场景到世界

李飞飞从进化与脑科学中汲取灵感。她指出，人类语言能力的演化耗时约 30 至 50 万年——不到百万年，且人类几乎是唯一拥有复杂语言的动物。而视觉与空间理解能力的演化则跨越了 5.4 亿年：5.4 亿年前，三叶虫（Trilobite）首次在水下发展出视觉，此后视觉引爆了进化军备竞赛（Evolutionary Arms Race），动物智力开始飞速竞逐。

因此，解决空间智能问题——理解三维世界、生成三维世界、推理三维世界、在三维世界中行动——是 AI 的根本性问题。在她看来，AGI 若缺乏空间智能将是不完整的。这需要构建世界模型——超越扁平像素、超越语言、真正捕获三维结构与空间智能的世界模型。

World Labs：集结顶级人才攻克最难问题

李飞飞与三位世界级技术专家共同创立了 World Labs：Justin Johnson（实时神经风格迁移先驱）、Ben Mildenhall（NeRF 论文作者）和 Christoph Lassner（Pulsar 创造者，Gaussian Splatting 的种子技术，擅长可微渲染 Differentiable Rendering）。这支"梦之队"正在攻克 AI 领域最困难的问题。

为什么空间智能比语言更难？

空间智能之所以远比语言研究困难，原因有三：

第一，语言本质上一维的——符号按序列排列，因此序列到序列（Sequence-to-Sequence）建模非常经典。而现实世界是三维的，加入时间则变成四维，组合复杂度（Combinatorial Complexity）远高一筹。

第二，视觉感知是一个投影过程——无论是人眼视网膜还是相机，都在将三维世界坍缩为二维图像。这在数学上是病态问题（Ill-Posed Problem），因此人类和动物需要多传感器融合来弥补。

第三，世界并非纯粹生成的。语言是完全生成式的（Purely Generative），自然界中不存在语言——它纯粹出自人脑。而三维世界既有生成的一面（如虚拟世界必须遵循物理规律），也有重建（Reconstruction）的一面，用户需要在生成与重建之间流畅切换。一端是游戏和元宇宙（Metaverse），另一端是机器人（Robotics），而这一切都在世界建模与空间智能的连续体上。

此外，最显而易见的挑战是：互联网上有海量语言数据，但空间智能的数据在哪里？它存在于我们的头脑中，远不如语言那样易于获取。正因如此困难，才激发了李飞飞的热情——她的整个职业生涯都在追求那些困难到近乎妄想的问题。

从大脑到架构：世界模型的独特性

人脑视觉皮层（Visual Cortex）中处理视觉数据的神经元数量远超处理语言的区域，这是否意味着空间智能模型的架构应与 LLM 大不相同？李飞飞认为，LLM 社区的思路是用自监督（Self-Supervision）和暴力扩展一路写到圆满结局，但构建世界模型（Constructive World Model）可能需要更精细的方法——世界结构更丰富，可能需要先验（Prior）或数据中的监督信号来引导。这仍是开放问题。

此外，人类的三维视觉机制本身也尚未被完全理解——虽然知道双眼三角测量（Triangulation）的机械原理，但背后的数学模型仍不清楚，而且人类作为三维动物其实并不那么出色。World Labs 正寄望于拥有像素世界中最聪明的人来解决这些问题。

空间智能的应用前景

空间智能的应用范围极为广阔：从创作端（设计师、建筑师、工业设计师、3D 艺术家、游戏开发者）到机器人学习（Robotic Learning），从营销、娱乐到元宇宙。李飞飞对元宇宙特别兴奋——虽然目前尚未成功，但她认为硬件与软件的融合即将到来，而元宇宙的内容创作正需要世界模型。

从干洗店到 World Labs：创业者的本能

李飞飞的个人故事同样令人动容。19 岁移民美国时不会英语，为支持家庭和自己在普林斯顿的物理学业，她开了一家干洗店——在硅谷的语言中，她"融资"了，成为了创始人兼 CEO，同时也是收银员和一切杂工。七年之后，她成功"退出"。

她鼓励年轻创业者：不要害怕。她的整个职业生涯都在选择别人未曾走过的路——作为年轻教授选择成为院系中第一位计算机视觉教授，而非加入有资深导师的团队。她后来去 Google 学习商业与 B2B，又在 2018 年回到斯坦福创建以人为本 AI 研究院（Human-Centered AI Institute），以创业方式运营了五年。她热爱从零开始的感觉——忘记过去的成就，忘记他人的看法，埋头构建。

识别天才的标准：智识无畏

李飞飞培养了许多传奇级学生——Andrej Karpathy、Jim Fan、Jia Deng 等。被问及如何识别这些人才时，她强调了一个核心特质：智识无畏（Intellectual Fearlessness）。无论来自何方、解决什么问题，那种勇敢拥抱困难、全力以赴的品质是成功者的共同特征。她在 World Labs 招聘时也以此为准——寻找工程、产品、3D 和生成模型领域无畏且热爱空间智能的人才。

给 PhD 学生的建议

对于在 AI 快速变革时代考虑攻读博士学位的学生，李飞飞给出了深思熟虑的建议：学术界不再拥有大部分 AI 资源——算力和数据都集中在工业界。因此，应寻找那些不会与工业界正面竞争的"北极星"问题——那些不依赖大量算力和数据也能取得进展的基础性问题。她推荐的领域包括：跨学科 AI（Interdisciplinary AI），尤其是科学发现；AI 理论——当前 AI 能力已远远超越理论，可解释性（Explainability）、因果性（Causality）等方面仍有巨大空白；计算机视觉中的表征问题（Representational Problems）；以及小数据（Small Data）领域。

关于 AGI 的定义

被问及 AGI 更可能以统一模型还是多智能体系统（Multi-Agent System）形式出现时，李飞飞坦言她难以区分"AI"与"AGI"这两个概念。1956 年达特茅斯会议的奠基者们想解决的就是"让机器思考"的问题——这本身就是关于智能的命题，而非狭义 AI。她认为今日工业界将 AGI 视为超越 AI 的概念令她困惑。从大脑角度看，它既可被视为统一体，又有不同功能区（布洛卡区负责语言、视觉皮层、运动皮层等），因此她无法简单回答这个问题。

开源生态的多样性

对于 AI 开源的不同策略，李飞飞表示不应教条地要求必须开源或闭源——这取决于公司的商业策略。例如 Meta 开源模型是因为其商业模式在于吸引生态到其平台，而非直接售卖模型。其他公司可能采用开源与闭源的分层策略。在元层面上，她认为开源生态应当被保护——无论公共部门还是私营部门的开源努力，对创业生态和公共利益都至关重要。

空间智能的数据挑战

被问及如何解决空间智能缺乏互联网数据的问题时，李飞飞幽默地回答"你应该加入 World Labs 我再告诉你"。她补充道，公司采用混合方法（Hybrid Approach），既需要大量数据也需要高质量数据——垃圾进、垃圾出（Garbage In, Garbage Out）的原则依然适用。

作为少数者的经历与建议

被问及作为 STEM 领域少数族裔女性的经历时，李飞飞坦言每个人都有感到自己是"房间里唯一不同的人"的时刻——无论是因为身份、想法还是其他原因。作为年轻移民来到这个国家，她几乎培养了一种不过度关注这种差异的能力——她和所有人一样，来这里学习、做事、创造。

她鼓励所有人：在创业路上，每个人都会经历脆弱与迷茫的时刻。她自己也常常想"天哪，我不知道自己在做什么"——但只要专注去做，用梯度下降（Gradient Descent）把自己优化到最优解就好。