如何构建像 OpenAI Sora 这样的生成式 AI 模型

摘要

本集 Y Combinator 的 Light Cone 播客深入探讨了生成式 AI（Generative AI）的最新进展，尤其是 OpenAI 的文本生成视频模型 Sora，以及 YC 初创公司如何在资源有限的情况下构建自己的基础模型（Foundation Model）。节目首先展示了 Sora 生成的多个视频片段，分析其在文本渲染、物理模拟和视觉一致性方面的突破与不足。随后，嘉宾从技术角度解析了 Sora 的底层架构——融合 Transformer 模型（Transformer Model）与扩散模型（Diffusion Model），并引入时空补丁（Space-Time Patches）机制。节目的核心亮点在于一系列 YC Winter 24 批次公司的案例：Infinity AI、Synclab、Sonado、Metalware、Guab、Find、Atmo、Theuse Bio、Pyramidal、K-Scale Labs、Drafta、Playground 等，它们各自通过数据压缩、合成数据（Synthetic Data）、领域专精、小模型高质数据等策略，在仅 50 万美元的 YC 投资及 GPU 信用额度下，训练出了令人惊叹的基础模型。节目最终传达了一个振奋人心的信息：AI 领域仍然如此年轻，任何人只要投入数月研读论文、融入社区，就能站上前沿，无需巨额资金也能与巨头竞争。

Sora 视频演示：突破与不足

机器人遛狗：文本渲染与物理模拟的飞跃

节目展示了第一个 Sora 生成视频：2050 年，一个类人机器人（Humanoid Robot）作为家庭助手，在绿树成荫的郊区街道上遛金毛猎犬。嘉宾们对此展开了细致的点评。

最令人惊喜的突破之一是文本渲染能力——视频中的机器人身上清晰地拼出了"HELP"字样，仿佛在炫耀"我现在会拼写了"。这在 DALL·E（原文 ASR 误作 "Dolly"）、Stable Diffusion 等图像模型时代是 notoriously 不可能的，它们在拼写文字方面臭名昭著地糟糕。

视频的高清程度也令人惊叹，几乎接近真实。物理模拟方面，机器人的行走方式大体准确，金毛猎犬的运动姿态也被完美建模——有嘉宾养金毛猎犬，可以亲自作证。

但瑕疵同样明显：街道既不像人行道也不像车道，显得怪异；右侧出现了漂浮的物体，看起来像一只小狗；机器人行走时有些微小的拖步（Shuffle），略微不够自然。与 Meta 之前发布的 Will Smith 吃意大利面的视频相比——那种视频简直是灾难——Sora 的进步是显而易见的。Will Smith 那段视频的问题在于，它本质上是将前一帧输入同一模型来生成下一帧，缺乏持久性（Durable）。

金门大桥：长期视觉一致性与地理误差

第二个视频是无人机航拍金门大桥（Golden Gate Bridge），展示了壮丽的悬崖、海浪和旧金山市景。

嘉宾们一致认可视频的高清质量令人震撼，模型确实知道金门大桥长什么样，甚至能看到阿尔卡特拉斯岛（Alcatraz，原文 ASR 误作 "alcatra"）的轮廓。然而，地理准确性并不完美——地形与真实世界有出入。

技术瑕疵包括：桥墩从特定角度看出现错位（Disjointed），但在另一角度又对齐了；汽车行驶在道路错误的一侧，似乎训练数据中混入了英国的靠左行驶数据。此外，流体模拟（Fluid Simulation）在计算机图形学中历来极其困难，Sora 的海浪效果仍显得有些僵硬（Static/Static-y），尽管在其他片段中水的运动效果令人难以置信。

嘉宾们特别强调了 Sora 的长期视觉一致性（Long-term Visual Consistency）——一分钟的视频中，所有房屋建筑风格统一，树木风格一致，场景没有不连续性，明显都发生在同一个世界中。这是一个重大进步。

Sora 的技术架构解析

Transformer + 扩散模型的融合

嘉宾对 Sora 的底层技术进行了深入解析。核心要点是：Sora 实际上是 Transformer 模型与扩散模型的组合。Transformer 主要用于文本处理，扩散模型则是 DALL·E、Midjourney 等图像生成技术的基础。Sora 将两者融合，并加入了时间维度（Temporal Component），从而实现帧间一致性和时间上的连贯性。

OpenAI 的关键创新在于使用视频和所谓的"时空补丁"（Space-Time Patches）进行训练。这是一种 3×3 的像素矩阵，包含空间（Spatial）维度和时间（Temporal）维度——多帧构成视频。补丁的大小可以变化，从小到大，涵盖 X、Y、Z 三个维度。所有这些在巨型架构中进行训练，成本极其高昂。

时空补丁本质上是视频领域的"词元"（Token）——正如文本模型将文本切分为 Token，Sora 将视频切分为时空补丁。

前置研究工作

Sora 并非凭空出现，其背后有大量前置研究：

ViT（Vision Transformer）：Google 于 2020 年发表的论文《An Image is Worth 16×16 Words》证明了 Transformer 模型不仅可用于英文文本，还可用于图像识别任务。此前的最先进方法是卷积神经网络（Convolutional Neural Networks, CNN），计算成本极为高昂。ViT 的出现是一个奠基性突破。
World Models（世界模型）：2018 年发表的论文，最初面向机器人领域，将感知（Perception）——即视觉部分——与记忆模型（Memory Model）分离开来。时间维度部分使用了 RNN（循环神经网络，Recurrent Neural Network，原文 ASR 误作 "irn"），再由控制器模型（Controller Model）将两者结合。OpenAI 没有公开太多细节，但嘉宾推测 Sora 是机器人学论文、Transformer 和文本技术的组合。

计算成本的量级跃升

关于生成视频与文本的计算成本对比：GPT-4 约有一万亿（Trillion）参数，仅涉及两个维度——文本本质上是一个二维矩阵。而视频模型至少高出一个数量级，可能达到十万亿参数，需要大约十倍的 GPU 资源。GPT-4 的训练使用了大约 2-3 万块 GPU，Sora 的需求可想而知。

YC 公司如何在 50 万美元下构建基础模型

尽管 OpenAI 耗资巨大，但 YC Winter 24 批次的多家公司仅凭借 YC 提供的 50 万美元投资，就在批次期间构建了令人惊叹的基础模型。这打破了"必须融资数十亿美元才能做基础模型"的迷思。

Infinity AI：深度伪造视频

Infinity AI 专注于制作特定人物的深度伪造（Deepfake）视频。例如，他们有一个埃隆·马斯克（Elon Musk）的 AI 复制品，只需告诉 Infinity AI 你想让马斯克说什么，它就能生成一段马斯克说出那些话的视频。

令人印象深刻的是，Infinity AI 团队仅仅下载了 Light Cone 播客前三集的 YouTube 视频（大约一小时），就训练出了几位嘉宾的精确视频复制品。这证明了：一旦基础模型训练完成，适应新人物只需很少的数据。

Synclab：实时唇形同步

Synclab 提供实时唇形同步（Lip Syncing）的 API 服务。令人震惊的是，这个团队仅在单块 A100 GPU 上就训练出了模型。展示的 Demo 中，一个人看起来仿佛真的在说印地语（Hindi），唇形同步极其精确。

Synclab 的成功策略可以从三个维度理解——计算（Computation）、数据集（Dataset）和速度（Speed）：

数据压缩：他们将大量数据压缩，使用低分辨率视频。1080p 与 240p 版本相比，由于是两个维度，数据量呈二次方（Quadratic）减少。
GPU 集群：YC 与 Google Cloud（原文提及 "aure"，应为 GCP/Azure 等）合作的专属 GPU 集群使 Synclab 的迭代速度提升了 100 倍。YC 公司可获得超过 50 万美元的 GPU 信用额度，24 小时内即可获取 GPU 集群，无需竞争资源或预付一年费用。
实际投入：YC 投资的 50 万美元现金，训练模型的公司根本无需动用——GPU 信用额度完全是额外的免费资源。

Sonado：文本生成歌曲

Sonado 构建了文本生成歌曲（Text-to-Song）模型。你可以给模型提供歌词，指定你想要的歌手——比如"让泰勒·斯威夫特（Taylor Swift）给我的狗唱一首生日歌"——它就能生成那样的歌曲。全球仅有两三个模型具备此能力，而 Sonado 可能是最好的那个。

更令人惊叹的是，Sonado 的创始人年仅 21 岁，刚刚大学毕业，并非拥有十年机器学习经验的博士研究人员。他们在数月内自学成才，搭建了这个模型。

Metalware：硬件设计副驾驶

Metalware 的创始人曾是 SpaceX 的硬件工程师，进入 YC 后决定构建硬件设计副驾驶（Co-pilot for Hardware Design）。他们没有太多 AI 背景，但成功在批次期间训练了一个基础模型——因为该领域没有现成模型可用。

他们的策略是：

高质量小数据集：使用教科书中的硬件设计图表和信息作为训练数据，数据量虽少但质量极高。
小模型：选择 GPT-2.5（仅约 10 亿参数），而非 GPT-4 级别的万亿参数模型。更少的数据需求使他们能够使用更小、计算成本更低的模型，依然完成了硬件设计副驾驶的各项任务。

这证明了：当你将任务范围高度约束，数据集质量极高时，这是另一种在批次期间构建基础模型的有效策略。

Guab：可解释基础模型

Guab 正在构建可解释的基础模型（Explainable Foundation Model）。深度学习一直被视为"黑箱魔法"——数据输入、标签输出，中间过程无人知晓。深度学习之前，人们可以通过权重（Weights）理解哪些特征（Feature）对标签贡献了多大权重。Guab 团队在批次期间训练了一个能够解释自身输出的基础模型。

Find：合成数据的巧妙运用

Find 构建软件工程副驾驶，其生成的答案甚至优于 Stack Overflow。创始人同样是刚毕业的大学生，没有深厚的技术背景。他们的巧妙策略是创建合成数据（Synthetic Data）——为编程竞赛生成大量数据集，质量远高于普通数据，且数量几乎无限。

合成数据曾一度备受争议，因为它看似循环——模型如何从自己生成的数据中学习？这被戏称为"蚊子喝自己的血"。但事实证明合成数据确实有效，这可能与大语言模型（LLM）具备推理（Reasoning）能力有关——推理能力驱动了飞轮效应（Flywheel）。自动驾驶领域也是一个有力类比：自动驾驶模型大量使用模拟数据训练，比例可达真实驾驶数据的 10:1 甚至更高。Sora 很可能也在使用 Unreal Engine 或 Unity 等游戏引擎生成的视频素材——这些引擎拥有完整的物理模拟器，可以从所有可能的摄像机角度生成同一场景的素材。

从视频生成到物理世界模拟

超越娱乐的深远影响

大多数人看到 Sora 演示时，首先想到的是电影或视频游戏等娱乐应用。但如果 Sora 真的能够模拟真实世界的物理规律，其影响将远超娱乐领域。

Atmo：AI 天气预测

Atmo 是一家利用基础模型进行天气预测的公司。传统天气预测依赖基于物理的模型，成本极其高昂——美国 NOAA 资助的模型耗资超过 10 亿美元，没有商业公司能以传统方式复制。Atmo 转而训练基础模型，使用机器学习，效率提升了约一百万倍。作为仅融资种子轮的初创公司，Atmo 构建出了比耗资 10 亿美元的 NOAA 模型更准确的天气预测模型。

Theuse Bio：蛋白质生成 AI

Theuse Bio 正在构建蛋白质领域的生成式 AI，开发大型模型以创造新型药物分子和基因疗法。与前面几位没有 AI 背景的创始人不同，Theuse Bio 的创始人 Ananda 在此之前已在《自然》（Nature）期刊发表了多篇重量级论文，拥有深厚的领域专业知识。她的策略是构建自定义计算内核（Custom Kernels），大幅加速基础模型的构建过程，从而以更少资源取得更大进展。

Pyramidal：脑电信号基础模型

Pyramidal 正在构建人脑基础模型——预测 EEG（脑电图，Electroencephalogram）信号，可应用于中风预测乃至未来可能的脑机接口。EEG 信号与视频有相似的时空结构：视频是图像加时间戳，EEG 是电脉冲加时间段。Pyramidal 采用类似 Sora 的时空分块（Space-Time Chunking）方法处理 EEG 数据，将序列数据分块，将运行时间复杂度降低了二次方（Quadratic），仅需 800 小时的 GPU 计算即可完成一次初始模型迭代。

嘉宾感叹：如果让人们列举基础模型的应用场景，EEG 绝不会是首先想到的——这意味着还有大量类似 EEG 的应用领域尚未被发掘。

机器人与物理世界

K-Scale Labs：消费级人形机器人

AI 机器人曾被认为是 AI 的第一个应用方向——Sam Altman 创立 OpenAI 时，最初专注于机器人和现实世界中的 AI。OpenAI 早期曾有机器人尝试用强化学习（Reinforcement Learning）解魔方，但这些方向最终被证明是死胡同。甚至 Transformer 架构的研究者在 OpenAI 内部最初也处于边缘位置。

K-Scale Labs 正在构建消费级人形机器人，其创始人 Ben 此前在特斯拉（Tesla）构建了基础机器人模型，并将其应用于 Optimus 机器人。有了 Sora 这样的真实物理世界模拟器，AI 机器人可能终于迎来真正的突破。

Drafta：AI 驱动的 CAD 设计

Drafta 正在构建 AI 模型用于 CAD（计算机辅助设计，Computer-Aided Design）领域。CAD 遵循牛顿力学等物理定律——力、剪切力等，SolidWorks 和 AutoCAD 背后的软件运行在非常古老的内核上，使用 Fortran 编译，需要求解大量方程组来计算力和容差。Drafta 用 AI 模型替代部分传统计算，速度更快、成本更低。这是一个典型的、通用模型无法轻易取代的垂直领域——有价值的问题需要专业化解决。

Playground：与巨头正面竞争

Playground 由 Suhail Doshi 创立，其最新版本 Playground 2.5 紧追 Midjourney，开源模型的性能也与 Stable Diffusion 最新版本不相上下，很多场景甚至远超后者，而其资金远少于 Stability AI。

值得强调的是，Suhail 并非 AI 背景——他 19 岁时创立了 Mixpanel，后来将 Playground 从完全不同的方向硬转型（Hard Pivot）为 AI 公司。他把自己关在公寓里一个月，只读 AI 论文，然后亲手构建了 Playground。

核心启示

节目的核心信息是：AI 领域仍然极其年轻，任何人都有机会站上前沿。

多个案例证明：

专业知识被高估：21 岁的大学毕业生、硬件工程师、产品经理，都可以通过自学论文在数月内掌握前沿技术。
计算资源有出路：YC 的 GPU 信用额度和专属集群使初创公司无需巨额资金即可获得算力。
数据是关键杠杆：高质量小数据集、合成数据、领域专精数据，都是绕开"大数据"门槛的有效策略。
垂直领域机会巨大：不必与 OpenAI 正面竞争通用模型，在特定垂直领域训练自己的模型，完全可以做出超越巨头的产品。

正如节目结尾所言：全世界都在关注 Sam Altman、Dario Amodei 等明星人物，但所有这些人都曾经从某个起点出发。YC 希望成为你的起点——正如它曾是 Sam Altman 的起点一样。