李飞飞:空间智能是人工智能的下一个前沿

cover

摘要

李飞飞(Fei-Fei Li)是斯坦福大学计算机科学教授、ImageNet 的创造者,被誉为"AI 教母"。本次对话回顾了她从创建 ImageNet 到创立 World Labs 的完整历程,阐释了空间智能(Spatial Intelligence)为何是 AI 的下一个根本性前沿。她指出,视觉智能不仅是感知,更是理解和作用于世界的能力。从进化角度看,语言能力的演化耗时不足百万年,而视觉与空间理解能力的演化则跨越了 5.4 亿年——从三叶虫首次在水下发展出视觉开始,便引爆了进化军备竞赛。她认为,AGI 若缺乏空间智能将是不完整的。World Labs 致力于构建超越扁平像素和语言的世界模型(World Model),真正捕获三维结构。她还分享了个人经历——19 岁移民美国、经营干洗店七年支撑家庭与学业、从学术界转向创业——以及对"智识无畏"(Intellectual Fearlessness)人才标准的坚持,鼓励年轻创业者勇敢面对困难、脚踏实地构建未来。

正文

从 ImageNet 的诞生说起

李飞飞在对话伊始回顾了 ImageNet 的诞生背景。2007 年前后,她还是普林斯顿大学刚入职的助理教授。彼时 AI 与机器学习(Machine Learning)领域与今日截然不同:数据极度匮乏,计算机视觉(Computer Vision)算法几乎无法运作,公众甚至不知道 AI 这个词的存在。但自 AI 奠基人约翰·麦卡锡(John McCarthy)到杰弗里·辛顿(Geoffrey Hinton),始终有一群人怀抱着让机器思考与工作的梦想。李飞飞个人的梦想是让机器"看见"——因为视觉智能(Visual Intelligence)是智能的基石,它不仅是感知,更是理解世界并在世界中行动的能力。

她痴迷于让机器看见的问题,尝试过神经网络(Neural Network)、贝叶斯网络(Bayes Net)、支持向量机(Support Vector Machine)等各类算法,但泛化(Generalization)问题始终困扰着她。泛化是机器学习的核心数学基础与目标,而要实现泛化,算法需要数据——当时计算机视觉领域却无人拥有数据。作为第一代接触互联网的研究生,李飞飞看到了互联网这一"大数据源"的潜力。

2007 年左右,她与学生做出了一个大胆的决定:必须推动机器学习的范式转换(Paradigm Shift),以数据驱动方法(Data-Driven Method)引领这一转变。他们的计划是从互联网下载十亿张图像,建立全球完整的视觉分类体系(Visual Taxonomy),并以此训练和基准测试机器学习算法——这就是 ImageNet 的起源。

AlexNet 时刻:数据、算法与算力的汇聚

ImageNet 于 2009 年以一篇 CVPR 海报论文首次发表。此后三年间,团队坚信数据驱动 AI 的方向,但收到的信号极为微弱。为此,他们做了两件关键的事:一是从一开始就将 ImageNet 开源(Open Source)给整个研究社区;二是创建竞赛——ImageNet 挑战赛(ImageNet Challenge),每年发布测试数据集,邀请全球最优秀的学生和研究者参与。

最初几年的成绩仅设置了基线,错误率在 30% 左右。但 2012 年的夏天,一切发生了改变。李飞飞回忆道,某天深夜她收到研究生的消息,称出现了一个极为突出的结果。团队仔细查看后发现,这是一个卷积神经网络(Convolutional Neural Network)——由辛顿团队的"Supervision"(巧妙地融合了"super"与"supervised learning"的双关语)提交。卷积神经网络并非新算法,早在 1980 年代就已发表,但此次结果出现了阶跃式变化。

更重要的是,AlexNet 不仅是算法的突破,也是首次将两块 GPU 组合起来用于深度学习计算。因此,2012 年那个时刻,标志着数据、GPU 算力和神经网络三者的历史性汇聚。在意大利佛罗伦萨的 ICCV 会议上,Alex Krizhevsky 和众多研究者出席,这个时刻后来被世界称为"ImageNet 挑战赛的 AlexNet 时刻"。

从物体识别到场景理解

ImageNet 解决的是物体识别(Object Recognition)问题——给一张图,识别出猫、椅子等物体。但李飞飞从研究生时期就怀有一个更大的梦想:场景讲故事(Storytelling of the World)。人类睁开眼睛看到的不是一个个孤立的"人、椅子、椅子",而是一个完整的场景——会议室、屏幕、舞台、人群、摄像机,并能描述整个场景。这种能力是视觉智能的基础,对日常生活至关重要。

她曾以为这是需要穷尽一生才能解决的问题——在研究生毕业时告诉自己,如果临终前能创造出一个讲述场景故事的算法,便算成功。然而 AlexNet 之后深度学习飞速发展,当 Andrej Karpathy 和 Justin Johnson 进入她的实验室后,自然语言与视觉开始碰撞。2015 年左右,Andrej 与李飞飞发表了一系列图像描述(Image Captioning)论文,首次让计算机为图像生成文字描述。那一刻她几乎感到茫然——终身目标就这样实现了。

她还打趣地提到,当时曾对 Andrej 说:"我们何不做反向的事——输入一句话,生成一张图?"Andrej 笑着回答"我可不干了"。那时的世界尚未准备好,但如今生成式 AI(Generative AI)已能从文字生成精美图片,这一切令她深感幸运——她的整个职业生涯恰好从 AI 寒冬的尾声开始,亲历并推动了 AI 的崛起。

空间智能:从场景到世界

李飞飞从进化与脑科学中汲取灵感。她指出,人类语言能力的演化耗时约 30 至 50 万年——不到百万年,且人类几乎是唯一拥有复杂语言的动物。而视觉与空间理解能力的演化则跨越了 5.4 亿年:5.4 亿年前,三叶虫(Trilobite)首次在水下发展出视觉,此后视觉引爆了进化军备竞赛(Evolutionary Arms Race),动物智力开始飞速竞逐。

因此,解决空间智能问题——理解三维世界、生成三维世界、推理三维世界、在三维世界中行动——是 AI 的根本性问题。在她看来,AGI 若缺乏空间智能将是不完整的。这需要构建世界模型——超越扁平像素、超越语言、真正捕获三维结构与空间智能的世界模型。

World Labs:集结顶级人才攻克最难问题

李飞飞与三位世界级技术专家共同创立了 World Labs:Justin Johnson(实时神经风格迁移先驱)、Ben Mildenhall(NeRF 论文作者)和 Christoph Lassner(Pulsar 创造者,Gaussian Splatting 的种子技术,擅长可微渲染 Differentiable Rendering)。这支"梦之队"正在攻克 AI 领域最困难的问题。

为什么空间智能比语言更难?

空间智能之所以远比语言研究困难,原因有三:

第一,语言本质上一维的——符号按序列排列,因此序列到序列(Sequence-to-Sequence)建模非常经典。而现实世界是三维的,加入时间则变成四维,组合复杂度(Combinatorial Complexity)远高一筹。

第二,视觉感知是一个投影过程——无论是人眼视网膜还是相机,都在将三维世界坍缩为二维图像。这在数学上是病态问题(Ill-Posed Problem),因此人类和动物需要多传感器融合来弥补。

第三,世界并非纯粹生成的。语言是完全生成式的(Purely Generative),自然界中不存在语言——它纯粹出自人脑。而三维世界既有生成的一面(如虚拟世界必须遵循物理规律),也有重建(Reconstruction)的一面,用户需要在生成与重建之间流畅切换。一端是游戏和元宇宙(Metaverse),另一端是机器人(Robotics),而这一切都在世界建模与空间智能的连续体上。

此外,最显而易见的挑战是:互联网上有海量语言数据,但空间智能的数据在哪里?它存在于我们的头脑中,远不如语言那样易于获取。正因如此困难,才激发了李飞飞的热情——她的整个职业生涯都在追求那些困难到近乎妄想的问题。

从大脑到架构:世界模型的独特性

人脑视觉皮层(Visual Cortex)中处理视觉数据的神经元数量远超处理语言的区域,这是否意味着空间智能模型的架构应与 LLM 大不相同?李飞飞认为,LLM 社区的思路是用自监督(Self-Supervision)和暴力扩展一路写到圆满结局,但构建世界模型(Constructive World Model)可能需要更精细的方法——世界结构更丰富,可能需要先验(Prior)或数据中的监督信号来引导。这仍是开放问题。

此外,人类的三维视觉机制本身也尚未被完全理解——虽然知道双眼三角测量(Triangulation)的机械原理,但背后的数学模型仍不清楚,而且人类作为三维动物其实并不那么出色。World Labs 正寄望于拥有像素世界中最聪明的人来解决这些问题。

空间智能的应用前景

空间智能的应用范围极为广阔:从创作端(设计师、建筑师、工业设计师、3D 艺术家、游戏开发者)到机器人学习(Robotic Learning),从营销、娱乐到元宇宙。李飞飞对元宇宙特别兴奋——虽然目前尚未成功,但她认为硬件与软件的融合即将到来,而元宇宙的内容创作正需要世界模型。

从干洗店到 World Labs:创业者的本能

李飞飞的个人故事同样令人动容。19 岁移民美国时不会英语,为支持家庭和自己在普林斯顿的物理学业,她开了一家干洗店——在硅谷的语言中,她"融资"了,成为了创始人兼 CEO,同时也是收银员和一切杂工。七年之后,她成功"退出"。

她鼓励年轻创业者:不要害怕。她的整个职业生涯都在选择别人未曾走过的路——作为年轻教授选择成为院系中第一位计算机视觉教授,而非加入有资深导师的团队。她后来去 Google 学习商业与 B2B,又在 2018 年回到斯坦福创建以人为本 AI 研究院(Human-Centered AI Institute),以创业方式运营了五年。她热爱从零开始的感觉——忘记过去的成就,忘记他人的看法,埋头构建。

识别天才的标准:智识无畏

李飞飞培养了许多传奇级学生——Andrej Karpathy、Jim Fan、Jia Deng 等。被问及如何识别这些人才时,她强调了一个核心特质:智识无畏(Intellectual Fearlessness)。无论来自何方、解决什么问题,那种勇敢拥抱困难、全力以赴的品质是成功者的共同特征。她在 World Labs 招聘时也以此为准——寻找工程、产品、3D 和生成模型领域无畏且热爱空间智能的人才。

给 PhD 学生的建议

对于在 AI 快速变革时代考虑攻读博士学位的学生,李飞飞给出了深思熟虑的建议:学术界不再拥有大部分 AI 资源——算力和数据都集中在工业界。因此,应寻找那些不会与工业界正面竞争的"北极星"问题——那些不依赖大量算力和数据也能取得进展的基础性问题。她推荐的领域包括:跨学科 AI(Interdisciplinary AI),尤其是科学发现;AI 理论——当前 AI 能力已远远超越理论,可解释性(Explainability)、因果性(Causality)等方面仍有巨大空白;计算机视觉中的表征问题(Representational Problems);以及小数据(Small Data)领域。

关于 AGI 的定义

被问及 AGI 更可能以统一模型还是多智能体系统(Multi-Agent System)形式出现时,李飞飞坦言她难以区分"AI"与"AGI"这两个概念。1956 年达特茅斯会议的奠基者们想解决的就是"让机器思考"的问题——这本身就是关于智能的命题,而非狭义 AI。她认为今日工业界将 AGI 视为超越 AI 的概念令她困惑。从大脑角度看,它既可被视为统一体,又有不同功能区(布洛卡区负责语言、视觉皮层、运动皮层等),因此她无法简单回答这个问题。

开源生态的多样性

对于 AI 开源的不同策略,李飞飞表示不应教条地要求必须开源或闭源——这取决于公司的商业策略。例如 Meta 开源模型是因为其商业模式在于吸引生态到其平台,而非直接售卖模型。其他公司可能采用开源与闭源的分层策略。在元层面上,她认为开源生态应当被保护——无论公共部门还是私营部门的开源努力,对创业生态和公共利益都至关重要。

空间智能的数据挑战

被问及如何解决空间智能缺乏互联网数据的问题时,李飞飞幽默地回答"你应该加入 World Labs 我再告诉你"。她补充道,公司采用混合方法(Hybrid Approach),既需要大量数据也需要高质量数据——垃圾进、垃圾出(Garbage In, Garbage Out)的原则依然适用。

作为少数者的经历与建议

被问及作为 STEM 领域少数族裔女性的经历时,李飞飞坦言每个人都有感到自己是"房间里唯一不同的人"的时刻——无论是因为身份、想法还是其他原因。作为年轻移民来到这个国家,她几乎培养了一种不过度关注这种差异的能力——她和所有人一样,来这里学习、做事、创造。

她鼓励所有人:在创业路上,每个人都会经历脆弱与迷茫的时刻。她自己也常常想"天哪,我不知道自己在做什么"——但只要专注去做,用梯度下降(Gradient Descent)把自己优化到最优解就好。