推理、扩散、世界模型及更多 | YC 论文俱乐部

cover

摘要

YC 论文俱乐部 (YC Paper Club) 首次活动在帕洛阿尔托的 Pioneer 大楼举行，汇聚了超过百位顶级创始人和研究人员（其中不乏万级引用学者和融资数千万美元的创业者），深入探讨了五篇前沿AI论文。第一个演讲来自斯坦福大学研究生 Tanishk，他论证了推理 (Inference) 不应仅仅被视为成本或便利性问题，而应被视为能力 (Capability)——当模型性能随思考量扩展时，推理速度（tokens/秒）就直接决定了你能交付的峰值智能。他详细解析了推测解码 (Speculative Decoding) 的机制（小模型起草、大模型验证），以及他提出的"推测性推测解码"(SSD) 算法如何突破标准推测解码的极限。第二个演讲介绍了Google DeepMind的DMPC（扩散模型预测控制），展示了将动作提议 (Action Proposal) 与动力学模型 (Dynamics Model) 分解训练的方法如何实现灵活的行为迁移和新动力学适应。第三个演讲由Isaac Ward带来，聚焦Yann LeCun团队的JEPA世界模型 (LAW World Model)——一种通过SIGR（素描-各向同性-高斯正则化）在潜在空间中避免表示坍塌的优雅方法，仅需15M参数即可在单卡上运行，且速度比竞争对手快50倍。第四个演讲由Q Labs的Ashe介绍Andrew Gordon Wilson的论文《深度学习并不那么神秘》，用PAC-Bayes框架解释了过参数化 (Overparameterization) 和良性过拟合 (Benign Overfitting) 等所谓"谜题"。第五个演讲由Conrad Woo介绍数据受限但计算无限场景下的预训练缩放定律——联合缩放配方（正则化+集成+蒸馏）可实现5倍数据效率提升，自蒸馏 (Self-distillation) 也能带来惊人改进。整个活动体现了YC建立顶级AI研究与创业社区的雄心。

正文

首届 YC 论文俱乐部

YC 论文俱乐部在帕洛阿尔托的 Pioneer 大楼举办——这里是2016年冬季批次的所在地，当年140家公司中有15家成为独角兽（包括WP Engine、Astranis、DeepGram等）。当年 Sam Altman 还在掌舵，Andrej Karpathy、Wojciech Zaremba 和 Greg Brockman 就在这里启动 OpenAI。活动选址有意为之——湾区约一半AI人才在旧金山（Anthropic、OpenAI、Cursor等），另一半在半岛（Google DeepMind、Tesla、xAI、Thinking Machines等），论文俱乐部旨在汇聚这股力量。

推测解码：推理即能力

推理为何重要

Tanishk（斯坦福大学研究生，与 Tri Dao 和 Albert Ma 合作）首先为推理"布道"。他原本从事训练工作，以为推理只是"权重乘以矩阵"那么简单，不理解为什么需要专门的推理团队。但推理中的精妙之处远超想象。

关于推理重要性，人们常听到两点：(1) 推理成本高昂，在服务数十亿用户时超过训练成本；(2) RL（强化学习）的计算需求正在超过预训练，而RL本质上是推理的封装。但第三点——也是Tanishk进入这个领域的真正原因——很少有人提及：推理应当被视为能力而非成本。如果一个方法/算法/系统的性能随思考量扩展，那么推理速度（tokens/秒）就精确地等于你能交付的峰值智能。1-3年内，推理将被视为能力而非成本或便利因素。

推测解码的机制

标准推测解码 (Speculative Decoding) 使用一个小模型（如TinyLlama，称为草稿模型 Draft Model）和大模型（如BigLlama，称为目标模型 Target Model）。草稿模型自回归地生成若干token作为猜测，目标模型通过一次前向传播 (Forward Pass) 验证这些猜测——因为Transformer架构中，验证比生成更容易，可以在一次前向传播中并行获取序列中多个token的概率。

验证过程：对每个草稿token，检查大模型是否也会生成它。如果概率足够高，接受；如果不够，拒绝，并在拒绝点免费采样一个"奖励token"(Bonus Token)。本质上，推测解码是用计算量 (FLOPs) 换取延迟 (Latency) 的降低——类似CPU中的投机执行 (Speculative Execution)。

但推测解码有极限——不能无限增加草稿长度，因为长草稿被整体接受的概率指数级下降。

SSD：推测性推测解码

Tanishk 提出的 SSD (Speculative Speculative Decoding) 算法通过让草稿模型本身也进行"推测"来突破标准推测解码的极限。现场演示显示，SSD 比开源推理引擎的标准推测解码快得多——而且关键在于算法而非系统优化。

DMPC：扩散模型预测控制

动作与动力学的分解

Google DeepMind 的 DMPC (Diffusion Model Predictive Control) 论文展示了一种将动作提议模块与动力学模型模块分解训练的方法。在局部运动任务（如"向前跑"、"跳跃"）上训练后，推理时只需改变奖励函数 (Reward Function) 即可获得全新的行为——无需重新训练策略。

更重要的是，当环境动力学发生变化时（如模拟器中机器人踝关节断裂），DMPC 只需在新环境收集少量play数据并微调动力学模型，就能恢复大部分性能，而联合建模 (Joint Modeling) 的方法在这种场景下表现挣扎。

各组件的贡献

消融实验证明了DMPC各组件的贡献：扩散动作提议 (Diffusion Action Proposals) 提升性能并简化规划；多步扩散动作提议 (Multi-step Diffusion) 进一步提升性能；多步动力学建模 (Multi-step Dynamics Modeling) 同样有贡献。

JEPA 世界模型：LeCun 的十亿美元赌注

世界模型基础

Isaac Ward（Yann LeCun 实验室）介绍了LAW World Model——LeCun 团队的工作，其背景是 LeCun 在2026年3月筹集了10.3亿美元，本质上就是为了训练世界模型。

世界模型的核心是学习世界的动力学——用神经网络预测系统在输入下如何随时间变化。给定当前状态和动作，预测下一个状态。这不是新概念：1990年Richard Sutton（强化学习之父）就描述了完全相同的概念——一个黑盒，输入当前情境和动作，输出对下一个情境的预测。

世界模型的关键能力包括：(1) 生成想象结果 (Imagined Outcomes)；(2) 基于模型的控制 (Model-based Control)；(3) 惊讶量化 (Surprise Quantification)——世界模型使代理能够量化自己预测的不确定性。

无模型 vs 基于模型

无模型方法 (Model-free) 直接从观测映射到最优动作，但不显式表示未来的样子——虽有证据表明其内部权重中隐含了世界模型，但高度模糊且难以解释。基于模型的方法 (Model-based) 则显式训练世界模型，在策略中使用它来预测动作结果。基于模型的优势是可以量化建模误差（对现实世界部署至关重要），弱点是需要额外机制来提出候选动作供世界模型评估。

表示坍塌问题

训练世界模型的核心挑战是表示坍塌 (Representational Collapse)：同时学习世界表示和动力学时，优化景观中存在许多使模型"什么都不做"的平庸解——比如将所有状态表示为相同的向量。现有方法用各种技巧避免坍塌：显式启发式约束、利用基础模型（如DINO）作骨干、使用特权数据等。

JEPA 与 SIGR 正则化

LAW World Model 基于 LeCun 的 JEPA (Joint Embedding Predictive Architecture) 框架：用图像编码器将观测编码为潜在向量，训练一个动作条件预测模块 (Action-conditioned Forecasting Module) 在潜在空间中预测下一个嵌入（而非下一张图像），需要时可用解码器将潜在向量解码回图像。

关键创新是 SIGR 正则化 (Sketching-Isotropic-Gaussian Regularizer)：S 代表素描 (Sketching)——对高维数据做一维切片；I 代表各向同性 (Isotropic)——在任何方向上切片看起来相同；G 代表高斯 (Gaussian)——每个切片的一维分布应为高斯分布。如果所有切片都是高斯的，那么整体分布就是健康的多维高斯——这就避免了坍塌。SIGR 只需一个超参数和一个损失项，比其他方法的复杂配置优雅得多。

性能与能力

在2D任务（PushT）上，LAW World Model 优于竞争对手；在3D任务（PushCube）上，DINO World Model 因其大规模基础模型骨干而获胜。在双房间 (Two-room) 环境上表现不佳，作者解释是因为该方法促进高维健康嵌入，而该问题维度很低。关键优势：比所有竞争对手快约50倍（因为所有工作在潜在空间完成，无需额外前向传播或模型双副本），仅需15M参数，可在单张显卡（<24GB VRAM）上运行。

最令人兴奋的能力是惊讶量化：当对环境施加扰动（改变物体颜色、瞬移物体位置）时，模型误差出现可检测的尖峰——世界模型使代理能够量化自身预测的不可靠程度，这是无模型方法原生不具备的。

开放问题

讨论点包括：无模型 vs 基于模型的最终胜负；正则化与表示学习是否应分离；能否从生物学获得灵感；如何优雅地对抗表示坍塌。

深度学习的"谜题"并不神秘

过参数化的解释

Q Labs 的 Ashe 介绍了 Andrew Gordon Wilson 的论文《深度学习并不那么神秘或不同》。当前机器学习知道扩展模型能带来更好的泛化，但缺乏机制性理解。如果理解了泛化，或许也能优化它。

第一个"谜题"是过参数化 (Overparameterization)：按偏差-方差权衡 (Bias-variance Trade-off)，增加参数应该导致过拟合，但实际观察是更好的泛化。PAC-Bayes 框架给出了解释：测试损失（泛化）被训练损失和压缩项之和控制。增加参数时，训练损失下降（更好的拟合）；同时，Lotfi等人的工作表明更大模型找到更可压缩的解——编码训练集所需的比特数与参数数量负相关，压缩项也下降。另一个视角是平坦性 (Flatness)：增加参数时，平坦极小值 (Flat Minima) 的体积指数级增长，而尖锐极小值增长较少；平坦极小值更可压缩，因此过参数化完全符合现有理论。

良性过拟合的解释

第二个"谜题"是良性过拟合 (Benign Overfitting)：深度神经网络能拟合完全随机的噪声，同时也能在结构化数据上泛化。正则化多项式模型给出了直觉——在随机数据上，模型有足够参数拟合；在结构化数据上，正则化推动使用低阶项。深度学习的核心是"具有柔性归纳偏置的表达性模型"(Expressive Models with Soft Inductive Bias)——足够灵活以拟合数据，但有偏向更可压缩解的倾向。

核心启示

如果找到正确的归纳偏置并基于这些理论优化，可能获得巨大的能力提升。根据没有免费午餐定理 (No Free Lunch Theorem)，学习效率的唯一改进来源就是归纳偏置。考虑到AI与人类之间巨大的样本效率差距，这项工作可能是极好的投资方向。

数据受限、计算无限：预训练的新范式

问题的提出

Conrad Woo（与 Suhas、Percy Liang、Tengyu Ma 合作）介绍了在数据受限但计算无限场景下的预训练研究。互联网人类生成文本每年增长约3%，而预训练计算量每年增长4-5倍，这意味着每个数据点上可花费的计算量每年增长约4倍。核心问题：当数据受限但计算无限时，预训练应该怎么做？

标准配方的局限

使用200M DCLM tokens的实验设定：标准配方（重复训练数据 + 扩大模型）在训练过参数化模型时，过拟合越来越快，损失在某个点后开始上升——无法通过单纯增加计算来持续降低损失。

正则化配方

将权重衰减 (Weight Decay) 提高到计算最优预训练的30倍，配合最优学习率和epoch数调优，损失随参数量呈干净的幂律 (Power Law)——指数为1（符合数据约束理论预测），且有可测量的渐近线 (Asymptote) 3.43，表征无限计算下最佳正则化模型的性能。

集成的回归

集成 (Ensembling) 在现代预训练中回归并展现出惊人的数据效率：300M参数模型的集成随成员数增加，损失也呈幂律下降（指数1），且渐近线远低于正则化配方——在无限计算下给出了真正的数据效率优势。等计算量比较下，集成也优于正则化配方：训练5个300M模型的集成比训练1个1.5B模型更好。

联合缩放配方

组合正则化与集成的优势：正则化让模型可以持续变大，集成引入了新的计算缩放轴（训练更多模型）。双极限（无限大集成中的无限大模型）给出巨大的损失改进。

数据效率量化

通过数据缩放定律 (Data Scaling Laws)——在200M到1.7B tokens范围内重复实验——量化了数据效率：联合缩放配方相比标准配方有约5倍数据效率提升。5个1B参数模型的集成可提供3.7倍数据效率提升。更关键的是，数据缩放定律的指数和渐近线非常相似，暗示即使扩展到10万亿tokens，这个5倍优势也是恒定的。

蒸馏让数据效率实用化

8个300M模型的集成（约2.4B总参数）可蒸馏为单个300M密集模型，保留约83%的损失改进——数据效率不需要大量推理计算，只要愿意在训练时摊销测试时计算。更惊人的发现：自蒸馏 (Self-distillation)——将300M模型蒸馏到新的300M模型——也能带来巨大改进，甚至超过正则化配方的渐近线。这与集成有惊人联系：先前工作表明自蒸馏隐式等价于训练2集成。

下游任务与持续预训练

所有趋势直接适用于下游基准测试（完全保留的测试集）。在持续预训练 (Continued Pre-training) 场景中，用4B数学相关tokens（全量语料73B tokens），通过激进epoch和集成等技巧，仅用4B tokens就能匹配73B tokens的性能——约17倍数据效率提升。

核心启示

数据受限、计算无限时，算法选择至关重要，我们应该愿意重新思考技术栈的每个方面。本文主要通过重新审视正则化、集成、蒸馏等经典方法来实现，同时引入了渐近线作为评估工具。最终目标是利用渐近线开发出超越现有方法的新算法，实现真正的无限计算优势。