视频生成作为一种计算原语

cover

摘要

本视频探讨了视频生成模型 (Video Generation Model) 正在从一种内容创作工具演变为一种全新的计算原语 (Computing Primitive)，即软件的基本构建块。当前，Google的V3模型已经能够以每条视频仅需数美元的成本生成8秒逼真的音画同步 (Sound-On) 短片，其效果往往与现实难以区分。在不久的将来，人们将能够以趋近于零的边际成本 (Marginal Cost) 即时生成近乎完美的任意场景画面，视频将成为软件的新的基本组成部分。这一转变将催生大量前所未有的应用场景：在媒体与娱乐领域，人们可以为自己喜爱的已停播剧集生成全新一季，或创建以自己家人为角色的个性化儿童卡通，甚至出现AI原生 (AI-Native) 的TikTok继任者——每条视频为唯一观众量身定制；在电商领域，购物者将能看到自己穿着浏览中衣物的效果，租房者将看到自己的家具自动布置在每个房源中；在游戏与仿真领域，将出现无需游戏引擎 (Game Engine) 的视频游戏，能返回无限量机器人训练数据的API，以及与已故亲人进行视频通话的可能。Y Combinator正在寻找那些将生成式视频 (Generative Video) 视为新型计算原语而非简单输出 (Output) 的创始人，期待他们为无限量、低延迟 (Low Latency) 视频的世界构建新的应用、工具和基础设施。

正文

视频生成模型的快速进步

视频生成模型正在飞速进步。Google的V3模型已经能够以每条视频仅需数美元的成本，生成8秒逼真的音画同步短片，其视觉效果往往与真实拍摄难以区分。这意味着视频生成的门槛正在急剧下降，质量则在迅速攀升。

视频即将成为计算原语

当视频生成成本趋近于零时，视频将从一种内容形式转变为一种新的计算原语——即软件的基本构建块 (Building Block)。正如文字、图片和代码已成为软件的基础要素，视频将以全新的方式嵌入到各类应用之中，催生大量此前无法实现的产品创意。

媒体与娱乐的重构

视频生成原语首先将深刻改变媒体和娱乐产业。想象一下，你可以为自己喜爱的已停播电视剧创建全新一季；你可以生成一部以自己家人为角色的个性化儿童卡通；甚至可能出现AI原生的TikTok继任者，其中每一条视频都是为唯一的观众量身定制 (Personalize) 的。这些场景在传统视频制作模式下成本高昂且不可行，但在视频生成原语时代将成为现实。

电商与消费体验的革新

视频生成同样将改变人们的购物方式。在线购物时，你将能够看到自己穿着所浏览衣物的效果，或看到自己使用目标产品的场景。在租房找房时，你的个人物品将被自动虚拟布置 (Auto-Stage) 到你点击的每一个房源中，让你直观感受未来的居住空间。这种沉浸式、个性化的消费体验将从根本上重塑电商行业。

游戏与仿真的新范式

这一新的计算原语还将为游戏与仿真领域带来重大变革。我们将看到无需游戏引擎构建的视频游戏——画面完全由视频生成模型实时驱动；我们将拥有能够返回无限量机器人训练数据 (Robotic Training Data) 的API接口，为机器人学习提供无穷尽的仿真场景；我们甚至可能实现与已故亲人的视频通话，借助生成模型重现他们的形象与声音。

面向创始人的召唤

以上仅仅是今天能够想象到的显而易见的应用方向。Y Combinator正在寻找那些将生成式视频视为新型计算原语——而非简单输出——的创始人。他们期待创始人构建新的应用、工具 (Tooling) 和基础设施 (Infrastructure)，为一个拥有无限量、低延迟视频的世界奠定基础。如果你正是这样的人，Y Combinator期待你的申请。