如何构建像 OpenAI Sora 这样的生成式 AI 模型

摘要
本集 Y Combinator 的 Light Cone 播客深入探讨了生成式 AI(Generative AI)的最新进展,尤其是 OpenAI 的文本生成视频模型 Sora,以及 YC 初创公司如何在资源有限的情况下构建自己的基础模型(Foundation Model)。节目首先展示了 Sora 生成的多个视频片段,分析其在文本渲染、物理模拟和视觉一致性方面的突破与不足。随后,嘉宾从技术角度解析了 Sora 的底层架构——融合 Transformer 模型(Transformer Model)与扩散模型(Diffusion Model),并引入时空补丁(Space-Time Patches)机制。节目的核心亮点在于一系列 YC Winter 24 批次公司的案例:Infinity AI、Synclab、Sonado、Metalware、Guab、Find、Atmo、Theuse Bio、Pyramidal、K-Scale Labs、Drafta、Playground 等,它们各自通过数据压缩、合成数据(Synthetic Data)、领域专精、小模型高质数据等策略,在仅 50 万美元的 YC 投资及 GPU 信用额度下,训练出了令人惊叹的基础模型。节目最终传达了一个振奋人心的信息:AI 领域仍然如此年轻,任何人只要投入数月研读论文、融入社区,就能站上前沿,无需巨额资金也能与巨头竞争。
Sora 视频演示:突破与不足
机器人遛狗:文本渲染与物理模拟的飞跃
节目展示了第一个 Sora 生成视频:2050 年,一个类人机器人(Humanoid Robot)作为家庭助手,在绿树成荫的郊区街道上遛金毛猎犬。嘉宾们对此展开了细致的点评。
最令人惊喜的突破之一是文本渲染能力——视频中的机器人身上清晰地拼出了"HELP"字样,仿佛在炫耀"我现在会拼写了"。这在 DALL·E(原文 ASR 误作 "Dolly")、Stable Diffusion 等图像模型时代是 notoriously 不可能的,它们在拼写文字方面臭名昭著地糟糕。
视频的高清程度也令人惊叹,几乎接近真实。物理模拟方面,机器人的行走方式大体准确,金毛猎犬的运动姿态也被完美建模——有嘉宾养金毛猎犬,可以亲自作证。
但瑕疵同样明显:街道既不像人行道也不像车道,显得怪异;右侧出现了漂浮的物体,看起来像一只小狗;机器人行走时有些微小的拖步(Shuffle),略微不够自然。与 Meta 之前发布的 Will Smith 吃意大利面的视频相比——那种视频简直是灾难——Sora 的进步是显而易见的。Will Smith 那段视频的问题在于,它本质上是将前一帧输入同一模型来生成下一帧,缺乏持久性(Durable)。
金门大桥:长期视觉一致性与地理误差
第二个视频是无人机航拍金门大桥(Golden Gate Bridge),展示了壮丽的悬崖、海浪和旧金山市景。
嘉宾们一致认可视频的高清质量令人震撼,模型确实知道金门大桥长什么样,甚至能看到阿尔卡特拉斯岛(Alcatraz,原文 ASR 误作 "alcatra")的轮廓。然而,地理准确性并不完美——地形与真实世界有出入。
技术瑕疵包括:桥墩从特定角度看出现错位(Disjointed),但在另一角度又对齐了;汽车行驶在道路错误的一侧,似乎训练数据中混入了英国的靠左行驶数据。此外,流体模拟(Fluid Simulation)在计算机图形学中历来极其困难,Sora 的海浪效果仍显得有些僵硬(Static/Static-y),尽管在其他片段中水的运动效果令人难以置信。
嘉宾们特别强调了 Sora 的长期视觉一致性(Long-term Visual Consistency)——一分钟的视频中,所有房屋建筑风格统一,树木风格一致,场景没有不连续性,明显都发生在同一个世界中。这是一个重大进步。
Sora 的技术架构解析
Transformer + 扩散模型的融合
嘉宾对 Sora 的底层技术进行了深入解析。核心要点是:Sora 实际上是 Transformer 模型与扩散模型的组合。Transformer 主要用于文本处理,扩散模型则是 DALL·E、Midjourney 等图像生成技术的基础。Sora 将两者融合,并加入了时间维度(Temporal Component),从而实现帧间一致性和时间上的连贯性。
OpenAI 的关键创新在于使用视频和所谓的"时空补丁"(Space-Time Patches)进行训练。这是一种 3×3 的像素矩阵,包含空间(Spatial)维度和时间(Temporal)维度——多帧构成视频。补丁的大小可以变化,从小到大,涵盖 X、Y、Z 三个维度。所有这些在巨型架构中进行训练,成本极其高昂。
时空补丁本质上是视频领域的"词元"(Token)——正如文本模型将文本切分为 Token,Sora 将视频切分为时空补丁。
前置研究工作
Sora 并非凭空出现,其背后有大量前置研究:
-
ViT(Vision Transformer):Google 于 2020 年发表的论文《An Image is Worth 16×16 Words》证明了 Transformer 模型不仅可用于英文文本,还可用于图像识别任务。此前的最先进方法是卷积神经网络(Convolutional Neural Networks, CNN),计算成本极为高昂。ViT 的出现是一个奠基性突破。
-
World Models(世界模型):2018 年发表的论文,最初面向机器人领域,将感知(Perception)——即视觉部分——与记忆模型(Memory Model)分离开来。时间维度部分使用了 RNN(循环神经网络,Recurrent Neural Network,原文 ASR 误作 "irn"),再由控制器模型(Controller Model)将两者结合。OpenAI 没有公开太多细节,但嘉宾推测 Sora 是机器人学论文、Transformer 和文本技术的组合。
计算成本的量级跃升
关于生成视频与文本的计算成本对比:GPT-4 约有一万亿(Trillion)参数,仅涉及两个维度——文本本质上是一个二维矩阵。而视频模型至少高出一个数量级,可能达到十万亿参数,需要大约十倍的 GPU 资源。GPT-4 的训练使用了大约 2-3 万块 GPU,Sora 的需求可想而知。
YC 公司如何在 50 万美元下构建基础模型
尽管 OpenAI 耗资巨大,但 YC Winter 24 批次的多家公司仅凭借 YC 提供的 50 万美元投资,就在批次期间构建了令人惊叹的基础模型。这打破了"必须融资数十亿美元才能做基础模型"的迷思。
Infinity AI:深度伪造视频
Infinity AI 专注于制作特定人物的深度伪造(Deepfake)视频。例如,他们有一个埃隆·马斯克(Elon Musk)的 AI 复制品,只需告诉 Infinity AI 你想让马斯克说什么,它就能生成一段马斯克说出那些话的视频。
令人印象深刻的是,Infinity AI 团队仅仅下载了 Light Cone 播客前三集的 YouTube 视频(大约一小时),就训练出了几位嘉宾的精确视频复制品。这证明了:一旦基础模型训练完成,适应新人物只需很少的数据。
Synclab:实时唇形同步
Synclab 提供实时唇形同步(Lip Syncing)的 API 服务。令人震惊的是,这个团队仅在单块 A100 GPU 上就训练出了模型。展示的 Demo 中,一个人看起来仿佛真的在说印地语(Hindi),唇形同步极其精确。
Synclab 的成功策略可以从三个维度理解——计算(Computation)、数据集(Dataset)和速度(Speed):
- 数据压缩:他们将大量数据压缩,使用低分辨率视频。1080p 与 240p 版本相比,由于是两个维度,数据量呈二次方(Quadratic)减少。
- GPU 集群:YC 与 Google Cloud(原文提及 "aure",应为 GCP/Azure 等)合作的专属 GPU 集群使 Synclab 的迭代速度提升了 100 倍。YC 公司可获得超过 50 万美元的 GPU 信用额度,24 小时内即可获取 GPU 集群,无需竞争资源或预付一年费用。
- 实际投入:YC 投资的 50 万美元现金,训练模型的公司根本无需动用——GPU 信用额度完全是额外的免费资源。
Sonado:文本生成歌曲
Sonado 构建了文本生成歌曲(Text-to-Song)模型。你可以给模型提供歌词,指定你想要的歌手——比如"让泰勒·斯威夫特(Taylor Swift)给我的狗唱一首生日歌"——它就能生成那样的歌曲。全球仅有两三个模型具备此能力,而 Sonado 可能是最好的那个。
更令人惊叹的是,Sonado 的创始人年仅 21 岁,刚刚大学毕业,并非拥有十年机器学习经验的博士研究人员。他们在数月内自学成才,搭建了这个模型。
Metalware:硬件设计副驾驶
Metalware 的创始人曾是 SpaceX 的硬件工程师,进入 YC 后决定构建硬件设计副驾驶(Co-pilot for Hardware Design)。他们没有太多 AI 背景,但成功在批次期间训练了一个基础模型——因为该领域没有现成模型可用。
他们的策略是:
- 高质量小数据集:使用教科书中的硬件设计图表和信息作为训练数据,数据量虽少但质量极高。
- 小模型:选择 GPT-2.5(仅约 10 亿参数),而非 GPT-4 级别的万亿参数模型。更少的数据需求使他们能够使用更小、计算成本更低的模型,依然完成了硬件设计副驾驶的各项任务。
这证明了:当你将任务范围高度约束,数据集质量极高时,这是另一种在批次期间构建基础模型的有效策略。
Guab:可解释基础模型
Guab 正在构建可解释的基础模型(Explainable Foundation Model)。深度学习一直被视为"黑箱魔法"——数据输入、标签输出,中间过程无人知晓。深度学习之前,人们可以通过权重(Weights)理解哪些特征(Feature)对标签贡献了多大权重。Guab 团队在批次期间训练了一个能够解释自身输出的基础模型。
Find:合成数据的巧妙运用
Find 构建软件工程副驾驶,其生成的答案甚至优于 Stack Overflow。创始人同样是刚毕业的大学生,没有深厚的技术背景。他们的巧妙策略是创建合成数据(Synthetic Data)——为编程竞赛生成大量数据集,质量远高于普通数据,且数量几乎无限。
合成数据曾一度备受争议,因为它看似循环——模型如何从自己生成的数据中学习?这被戏称为"蚊子喝自己的血"。但事实证明合成数据确实有效,这可能与大语言模型(LLM)具备推理(Reasoning)能力有关——推理能力驱动了飞轮效应(Flywheel)。自动驾驶领域也是一个有力类比:自动驾驶模型大量使用模拟数据训练,比例可达真实驾驶数据的 10:1 甚至更高。Sora 很可能也在使用 Unreal Engine 或 Unity 等游戏引擎生成的视频素材——这些引擎拥有完整的物理模拟器,可以从所有可能的摄像机角度生成同一场景的素材。
从视频生成到物理世界模拟
超越娱乐的深远影响
大多数人看到 Sora 演示时,首先想到的是电影或视频游戏等娱乐应用。但如果 Sora 真的能够模拟真实世界的物理规律,其影响将远超娱乐领域。
Atmo:AI 天气预测
Atmo 是一家利用基础模型进行天气预测的公司。传统天气预测依赖基于物理的模型,成本极其高昂——美国 NOAA 资助的模型耗资超过 10 亿美元,没有商业公司能以传统方式复制。Atmo 转而训练基础模型,使用机器学习,效率提升了约一百万倍。作为仅融资种子轮的初创公司,Atmo 构建出了比耗资 10 亿美元的 NOAA 模型更准确的天气预测模型。
Theuse Bio:蛋白质生成 AI
Theuse Bio 正在构建蛋白质领域的生成式 AI,开发大型模型以创造新型药物分子和基因疗法。与前面几位没有 AI 背景的创始人不同,Theuse Bio 的创始人 Ananda 在此之前已在《自然》(Nature)期刊发表了多篇重量级论文,拥有深厚的领域专业知识。她的策略是构建自定义计算内核(Custom Kernels),大幅加速基础模型的构建过程,从而以更少资源取得更大进展。
Pyramidal:脑电信号基础模型
Pyramidal 正在构建人脑基础模型——预测 EEG(脑电图,Electroencephalogram)信号,可应用于中风预测乃至未来可能的脑机接口。EEG 信号与视频有相似的时空结构:视频是图像加时间戳,EEG 是电脉冲加时间段。Pyramidal 采用类似 Sora 的时空分块(Space-Time Chunking)方法处理 EEG 数据,将序列数据分块,将运行时间复杂度降低了二次方(Quadratic),仅需 800 小时的 GPU 计算即可完成一次初始模型迭代。
嘉宾感叹:如果让人们列举基础模型的应用场景,EEG 绝不会是首先想到的——这意味着还有大量类似 EEG 的应用领域尚未被发掘。
机器人与物理世界
K-Scale Labs:消费级人形机器人
AI 机器人曾被认为是 AI 的第一个应用方向——Sam Altman 创立 OpenAI 时,最初专注于机器人和现实世界中的 AI。OpenAI 早期曾有机器人尝试用强化学习(Reinforcement Learning)解魔方,但这些方向最终被证明是死胡同。甚至 Transformer 架构的研究者在 OpenAI 内部最初也处于边缘位置。
K-Scale Labs 正在构建消费级人形机器人,其创始人 Ben 此前在特斯拉(Tesla)构建了基础机器人模型,并将其应用于 Optimus 机器人。有了 Sora 这样的真实物理世界模拟器,AI 机器人可能终于迎来真正的突破。
Drafta:AI 驱动的 CAD 设计
Drafta 正在构建 AI 模型用于 CAD(计算机辅助设计,Computer-Aided Design)领域。CAD 遵循牛顿力学等物理定律——力、剪切力等,SolidWorks 和 AutoCAD 背后的软件运行在非常古老的内核上,使用 Fortran 编译,需要求解大量方程组来计算力和容差。Drafta 用 AI 模型替代部分传统计算,速度更快、成本更低。这是一个典型的、通用模型无法轻易取代的垂直领域——有价值的问题需要专业化解决。
Playground:与巨头正面竞争
Playground 由 Suhail Doshi 创立,其最新版本 Playground 2.5 紧追 Midjourney,开源模型的性能也与 Stable Diffusion 最新版本不相上下,很多场景甚至远超后者,而其资金远少于 Stability AI。
值得强调的是,Suhail 并非 AI 背景——他 19 岁时创立了 Mixpanel,后来将 Playground 从完全不同的方向硬转型(Hard Pivot)为 AI 公司。他把自己关在公寓里一个月,只读 AI 论文,然后亲手构建了 Playground。
核心启示
节目的核心信息是:AI 领域仍然极其年轻,任何人都有机会站上前沿。
多个案例证明:
- 专业知识被高估:21 岁的大学毕业生、硬件工程师、产品经理,都可以通过自学论文在数月内掌握前沿技术。
- 计算资源有出路:YC 的 GPU 信用额度和专属集群使初创公司无需巨额资金即可获得算力。
- 数据是关键杠杆:高质量小数据集、合成数据、领域专精数据,都是绕开"大数据"门槛的有效策略。
- 垂直领域机会巨大:不必与 OpenAI 正面竞争通用模型,在特定垂直领域训练自己的模型,完全可以做出超越巨头的产品。
正如节目结尾所言:全世界都在关注 Sam Altman、Dario Amodei 等明星人物,但所有这些人都曾经从某个起点出发。YC 希望成为你的起点——正如它曾是 Sam Altman 的起点一样。