推理、扩散、世界模型及更多 | YC 论文俱乐部

cover

摘要

YC 论文俱乐部 (YC Paper Club) 首次活动在帕洛阿尔托的 Pioneer 大楼举行,汇聚了超过百位顶级创始人和研究人员(其中不乏万级引用学者和融资数千万美元的创业者),深入探讨了五篇前沿AI论文。第一个演讲来自斯坦福大学研究生 Tanishk,他论证了推理 (Inference) 不应仅仅被视为成本或便利性问题,而应被视为能力 (Capability)——当模型性能随思考量扩展时,推理速度(tokens/秒)就直接决定了你能交付的峰值智能。他详细解析了推测解码 (Speculative Decoding) 的机制(小模型起草、大模型验证),以及他提出的"推测性推测解码"(SSD) 算法如何突破标准推测解码的极限。第二个演讲介绍了Google DeepMind的DMPC(扩散模型预测控制),展示了将动作提议 (Action Proposal) 与动力学模型 (Dynamics Model) 分解训练的方法如何实现灵活的行为迁移和新动力学适应。第三个演讲由Isaac Ward带来,聚焦Yann LeCun团队的JEPA世界模型 (LAW World Model)——一种通过SIGR(素描-各向同性-高斯正则化)在潜在空间中避免表示坍塌的优雅方法,仅需15M参数即可在单卡上运行,且速度比竞争对手快50倍。第四个演讲由Q Labs的Ashe介绍Andrew Gordon Wilson的论文《深度学习并不那么神秘》,用PAC-Bayes框架解释了过参数化 (Overparameterization) 和良性过拟合 (Benign Overfitting) 等所谓"谜题"。第五个演讲由Conrad Woo介绍数据受限但计算无限场景下的预训练缩放定律——联合缩放配方(正则化+集成+蒸馏)可实现5倍数据效率提升,自蒸馏 (Self-distillation) 也能带来惊人改进。整个活动体现了YC建立顶级AI研究与创业社区的雄心。

正文

首届 YC 论文俱乐部

YC 论文俱乐部在帕洛阿尔托的 Pioneer 大楼举办——这里是2016年冬季批次的所在地,当年140家公司中有15家成为独角兽(包括WP Engine、Astranis、DeepGram等)。当年 Sam Altman 还在掌舵,Andrej Karpathy、Wojciech Zaremba 和 Greg Brockman 就在这里启动 OpenAI。活动选址有意为之——湾区约一半AI人才在旧金山(Anthropic、OpenAI、Cursor等),另一半在半岛(Google DeepMind、Tesla、xAI、Thinking Machines等),论文俱乐部旨在汇聚这股力量。

推测解码:推理即能力

推理为何重要

Tanishk(斯坦福大学研究生,与 Tri Dao 和 Albert Ma 合作)首先为推理"布道"。他原本从事训练工作,以为推理只是"权重乘以矩阵"那么简单,不理解为什么需要专门的推理团队。但推理中的精妙之处远超想象。

关于推理重要性,人们常听到两点:(1) 推理成本高昂,在服务数十亿用户时超过训练成本;(2) RL(强化学习)的计算需求正在超过预训练,而RL本质上是推理的封装。但第三点——也是Tanishk进入这个领域的真正原因——很少有人提及:推理应当被视为能力而非成本。如果一个方法/算法/系统的性能随思考量扩展,那么推理速度(tokens/秒)就精确地等于你能交付的峰值智能。1-3年内,推理将被视为能力而非成本或便利因素。

推测解码的机制

标准推测解码 (Speculative Decoding) 使用一个小模型(如TinyLlama,称为草稿模型 Draft Model)和大模型(如BigLlama,称为目标模型 Target Model)。草稿模型自回归地生成若干token作为猜测,目标模型通过一次前向传播 (Forward Pass) 验证这些猜测——因为Transformer架构中,验证比生成更容易,可以在一次前向传播中并行获取序列中多个token的概率。

验证过程:对每个草稿token,检查大模型是否也会生成它。如果概率足够高,接受;如果不够,拒绝,并在拒绝点免费采样一个"奖励token"(Bonus Token)。本质上,推测解码是用计算量 (FLOPs) 换取延迟 (Latency) 的降低——类似CPU中的投机执行 (Speculative Execution)。

但推测解码有极限——不能无限增加草稿长度,因为长草稿被整体接受的概率指数级下降。

SSD:推测性推测解码

Tanishk 提出的 SSD (Speculative Speculative Decoding) 算法通过让草稿模型本身也进行"推测"来突破标准推测解码的极限。现场演示显示,SSD 比开源推理引擎的标准推测解码快得多——而且关键在于算法而非系统优化。

DMPC:扩散模型预测控制

动作与动力学的分解

Google DeepMind 的 DMPC (Diffusion Model Predictive Control) 论文展示了一种将动作提议模块与动力学模型模块分解训练的方法。在局部运动任务(如"向前跑"、"跳跃")上训练后,推理时只需改变奖励函数 (Reward Function) 即可获得全新的行为——无需重新训练策略。

更重要的是,当环境动力学发生变化时(如模拟器中机器人踝关节断裂),DMPC 只需在新环境收集少量play数据并微调动力学模型,就能恢复大部分性能,而联合建模 (Joint Modeling) 的方法在这种场景下表现挣扎。

各组件的贡献

消融实验证明了DMPC各组件的贡献:扩散动作提议 (Diffusion Action Proposals) 提升性能并简化规划;多步扩散动作提议 (Multi-step Diffusion) 进一步提升性能;多步动力学建模 (Multi-step Dynamics Modeling) 同样有贡献。

JEPA 世界模型:LeCun 的十亿美元赌注

世界模型基础

Isaac Ward(Yann LeCun 实验室)介绍了LAW World Model——LeCun 团队的工作,其背景是 LeCun 在2026年3月筹集了10.3亿美元,本质上就是为了训练世界模型。

世界模型的核心是学习世界的动力学——用神经网络预测系统在输入下如何随时间变化。给定当前状态和动作,预测下一个状态。这不是新概念:1990年Richard Sutton(强化学习之父)就描述了完全相同的概念——一个黑盒,输入当前情境和动作,输出对下一个情境的预测。

世界模型的关键能力包括:(1) 生成想象结果 (Imagined Outcomes);(2) 基于模型的控制 (Model-based Control);(3) 惊讶量化 (Surprise Quantification)——世界模型使代理能够量化自己预测的不确定性。

无模型 vs 基于模型

无模型方法 (Model-free) 直接从观测映射到最优动作,但不显式表示未来的样子——虽有证据表明其内部权重中隐含了世界模型,但高度模糊且难以解释。基于模型的方法 (Model-based) 则显式训练世界模型,在策略中使用它来预测动作结果。基于模型的优势是可以量化建模误差(对现实世界部署至关重要),弱点是需要额外机制来提出候选动作供世界模型评估。

表示坍塌问题

训练世界模型的核心挑战是表示坍塌 (Representational Collapse):同时学习世界表示和动力学时,优化景观中存在许多使模型"什么都不做"的平庸解——比如将所有状态表示为相同的向量。现有方法用各种技巧避免坍塌:显式启发式约束、利用基础模型(如DINO)作骨干、使用特权数据等。

JEPA 与 SIGR 正则化

LAW World Model 基于 LeCun 的 JEPA (Joint Embedding Predictive Architecture) 框架:用图像编码器将观测编码为潜在向量,训练一个动作条件预测模块 (Action-conditioned Forecasting Module) 在潜在空间中预测下一个嵌入(而非下一张图像),需要时可用解码器将潜在向量解码回图像。

关键创新是 SIGR 正则化 (Sketching-Isotropic-Gaussian Regularizer):S 代表素描 (Sketching)——对高维数据做一维切片;I 代表各向同性 (Isotropic)——在任何方向上切片看起来相同;G 代表高斯 (Gaussian)——每个切片的一维分布应为高斯分布。如果所有切片都是高斯的,那么整体分布就是健康的多维高斯——这就避免了坍塌。SIGR 只需一个超参数和一个损失项,比其他方法的复杂配置优雅得多。

性能与能力

在2D任务(PushT)上,LAW World Model 优于竞争对手;在3D任务(PushCube)上,DINO World Model 因其大规模基础模型骨干而获胜。在双房间 (Two-room) 环境上表现不佳,作者解释是因为该方法促进高维健康嵌入,而该问题维度很低。关键优势:比所有竞争对手快约50倍(因为所有工作在潜在空间完成,无需额外前向传播或模型双副本),仅需15M参数,可在单张显卡(<24GB VRAM)上运行。

最令人兴奋的能力是惊讶量化:当对环境施加扰动(改变物体颜色、瞬移物体位置)时,模型误差出现可检测的尖峰——世界模型使代理能够量化自身预测的不可靠程度,这是无模型方法原生不具备的。

开放问题

讨论点包括:无模型 vs 基于模型的最终胜负;正则化与表示学习是否应分离;能否从生物学获得灵感;如何优雅地对抗表示坍塌。

深度学习的"谜题"并不神秘

过参数化的解释

Q Labs 的 Ashe 介绍了 Andrew Gordon Wilson 的论文《深度学习并不那么神秘或不同》。当前机器学习知道扩展模型能带来更好的泛化,但缺乏机制性理解。如果理解了泛化,或许也能优化它。

第一个"谜题"是过参数化 (Overparameterization):按偏差-方差权衡 (Bias-variance Trade-off),增加参数应该导致过拟合,但实际观察是更好的泛化。PAC-Bayes 框架给出了解释:测试损失(泛化)被训练损失和压缩项之和控制。增加参数时,训练损失下降(更好的拟合);同时,Lotfi等人的工作表明更大模型找到更可压缩的解——编码训练集所需的比特数与参数数量负相关,压缩项也下降。另一个视角是平坦性 (Flatness):增加参数时,平坦极小值 (Flat Minima) 的体积指数级增长,而尖锐极小值增长较少;平坦极小值更可压缩,因此过参数化完全符合现有理论。

良性过拟合的解释

第二个"谜题"是良性过拟合 (Benign Overfitting):深度神经网络能拟合完全随机的噪声,同时也能在结构化数据上泛化。正则化多项式模型给出了直觉——在随机数据上,模型有足够参数拟合;在结构化数据上,正则化推动使用低阶项。深度学习的核心是"具有柔性归纳偏置的表达性模型"(Expressive Models with Soft Inductive Bias)——足够灵活以拟合数据,但有偏向更可压缩解的倾向。

核心启示

如果找到正确的归纳偏置并基于这些理论优化,可能获得巨大的能力提升。根据没有免费午餐定理 (No Free Lunch Theorem),学习效率的唯一改进来源就是归纳偏置。考虑到AI与人类之间巨大的样本效率差距,这项工作可能是极好的投资方向。

数据受限、计算无限:预训练的新范式

问题的提出

Conrad Woo(与 Suhas、Percy Liang、Tengyu Ma 合作)介绍了在数据受限但计算无限场景下的预训练研究。互联网人类生成文本每年增长约3%,而预训练计算量每年增长4-5倍,这意味着每个数据点上可花费的计算量每年增长约4倍。核心问题:当数据受限但计算无限时,预训练应该怎么做?

标准配方的局限

使用200M DCLM tokens的实验设定:标准配方(重复训练数据 + 扩大模型)在训练过参数化模型时,过拟合越来越快,损失在某个点后开始上升——无法通过单纯增加计算来持续降低损失。

正则化配方

将权重衰减 (Weight Decay) 提高到计算最优预训练的30倍,配合最优学习率和epoch数调优,损失随参数量呈干净的幂律 (Power Law)——指数为1(符合数据约束理论预测),且有可测量的渐近线 (Asymptote) 3.43,表征无限计算下最佳正则化模型的性能。

集成的回归

集成 (Ensembling) 在现代预训练中回归并展现出惊人的数据效率:300M参数模型的集成随成员数增加,损失也呈幂律下降(指数1),且渐近线远低于正则化配方——在无限计算下给出了真正的数据效率优势。等计算量比较下,集成也优于正则化配方:训练5个300M模型的集成比训练1个1.5B模型更好。

联合缩放配方

组合正则化与集成的优势:正则化让模型可以持续变大,集成引入了新的计算缩放轴(训练更多模型)。双极限(无限大集成中的无限大模型)给出巨大的损失改进。

数据效率量化

通过数据缩放定律 (Data Scaling Laws)——在200M到1.7B tokens范围内重复实验——量化了数据效率:联合缩放配方相比标准配方有约5倍数据效率提升。5个1B参数模型的集成可提供3.7倍数据效率提升。更关键的是,数据缩放定律的指数和渐近线非常相似,暗示即使扩展到10万亿tokens,这个5倍优势也是恒定的。

蒸馏让数据效率实用化

8个300M模型的集成(约2.4B总参数)可蒸馏为单个300M密集模型,保留约83%的损失改进——数据效率不需要大量推理计算,只要愿意在训练时摊销测试时计算。更惊人的发现:自蒸馏 (Self-distillation)——将300M模型蒸馏到新的300M模型——也能带来巨大改进,甚至超过正则化配方的渐近线。这与集成有惊人联系:先前工作表明自蒸馏隐式等价于训练2集成。

下游任务与持续预训练

所有趋势直接适用于下游基准测试(完全保留的测试集)。在持续预训练 (Continued Pre-training) 场景中,用4B数学相关tokens(全量语料73B tokens),通过激进epoch和集成等技巧,仅用4B tokens就能匹配73B tokens的性能——约17倍数据效率提升。

核心启示

数据受限、计算无限时,算法选择至关重要,我们应该愿意重新思考技术栈的每个方面。本文主要通过重新审视正则化、集成、蒸馏等经典方法来实现,同时引入了渐近线作为评估工具。最终目标是利用渐近线开发出超越现有方法的新算法,实现真正的无限计算优势。