规模化与通往人类级 AI 之路 | Anthropic 联合创始人 Jared Kaplan

cover

摘要

Jared Kaplan 是 Anthropic 的联合创始人，此前拥有长达数十年的理论物理学家职业生涯。在本次演讲和炉边对话中，他系统阐述了规模化 (Scaling) 如何驱动 AI 进步，以及通往人类级 AI 的路径。Kaplan 介绍了当代 AI 模型训练的两个基本阶段——预训练 (Pre-training) 和强化学习 (Reinforcement Learning)，并展示了两者都遵循精确而惊人的规模化定律 (Scaling Laws)。这些定律横跨多个数量级的计算、数据和模型规模，为 AI 的持续进步提供了可预测的框架。他讨论了 AI 能力的两个维度——灵活性（多模态）和任务时间跨度，引用 METR 的研究指出 AI 可完成的任务时长大约每 7 个月翻倍。在通往人类级 AI 的路上，他认为还需攻克组织知识、记忆、监督 (Oversight) 和更细致的奖励信号等关键挑战。在炉边对话中，他谈到 Claude 4 在智能体能力和记忆方面的改进、AI 与人类协作的模式、物理学思维对 AI 研究的启发、规模化定律可能失效的信号、算力效率与 Jevons 悖论，以及给创业者的建议——在 AI 能力的边界上构建产品。

正文

从物理学到 AI

Jared Kaplan 在 AI 领域仅工作了约六年，此前职业生涯的绝大部分时间是理论物理学家。他进入物理学的初衷是因为母亲是科幻作家，他想弄清楚是否能制造超光速驱动器。他也对理解宇宙的根本问题充满热情——宇宙是否是确定性的？我们有自由意志吗？

在物理学研究生涯中，他结识了 Anthropic 的多位创始人，并持续关注他们的工作。当他在大型强子对撞机物理 (Large Hadron Collider Physics)、粒子物理 (Particle Physics)、宇宙学 (Cosmology) 和弦论 (String Theory) 等领域间转换时，逐渐感到进展不够快、有些厌倦。尽管他最初对 AI 持怀疑态度——2005-2009 年在学校时，支持向量机 (SVM) 等技术并不令人兴奋——但最终被说服 AI 可能是一个值得投入的领域，并因为认识对的人而幸运地进入了这个领域。

当代 AI 模型的两个训练阶段

预训练 (Pre-training)：训练 AI 模型模仿人类书写的文本，理解数据背后的相关性。模型学习在大规模文本语料中哪些词可能跟随其他词出现——如今也包括多模态数据 (Multimodal Data)。Kaplan 展示了原始 GPT-3 模型的界面，说明了预训练如何教模型预测下一个词。

强化学习 (Reinforcement Learning, RL)：第二个训练阶段。Kaplan 展示了 2022 年收集反馈数据的早期界面——用户与 Claude 早期版本对话，选择哪个回复更好。使用这个信号，模型优化并强化被选为好的、有帮助的 (Helpful)、诚实的 (Honest) 和无害的 (Harmless) 行为，同时抑制不好的行为。

总结：训练这些模型本质上就是学习预测下一个词，然后通过强化学习学会执行有用任务。

规模化定律：AI 进步的驱动力

Kaplan 发现规模化定律的经历源于他作为物理学家的本能——问最简单、最"愚蠢"的问题。2010 年代大家都在说大数据重要，他只是想知道数据要多大才够、有多重要、帮助有多大。同样，人们注意到更大的 AI 模型表现更好，他就问好多少。

他们极其幸运地发现，AI 训练背后存在非常精确而惊人的规律——规模化定律 (Scaling Laws) 呈现出的趋势精确程度堪比物理学或天文学中的任何现象。这给了他们极大的信念：AI 将以非常可预测的方式变得越来越聪明。早在 2019 年，他们就在跨越多个数量级的计算量、数据集规模和神经网络规模上观察到了这些趋势。当你看到某个规律在许多数量级上成立，你就预期它会继续成立很长一段时间。

强化学习的规模化定律：约四年前，研究者 Andy Jones 在单块 GPU 上研究了 AlphaGo 的规模化定律，将 GPT-3 的预训练规模化和 AlphaGo 的成功结合起来。他用更简单的棋盘游戏六子棋 (Hex) 进行研究，发现随着训练计算量增加，Elo 评分 (Elo Score，即棋类等级分) 呈现出惊人的直线趋势。这一发现最初未被充分重视，但最终被广泛认可。

核心结论：在预训练和强化学习两个阶段，都可以通过增加计算量来获得可预测的更好性能。AI 进步的根本驱动力不是研究者突然变得更聪明，而是找到了一种非常简单的方式系统地让 AI 变好——然后持续转动这个曲柄。

AI 能力的两个维度

Kaplan 用两个轴来思考 AI 能力：

Y 轴——灵活性：AI 能在多大程度上"在用户所在的地方"与用户互动。AlphaGo 虽然超级智能（超越所有人类棋手），但只能在围棋棋盘的宇宙中运作。大语言模型出现后，AI 已稳步扩展到处理越来越多的人类模态——文本、图像、音频、视频等（目前还没有嗅觉，但可能即将到来）。
X 轴——任务时间跨度 (Time Horizon)：AI 能完成的任务需要一个人花多长时间来做。METR 组织系统研究了这个问题，发现了又一个规模化趋势：AI 模型可完成的任务长度大约每 7 个月翻倍。这意味着规模化预训练和强化学习所注入的智能，正在转化为可预测的、越来越长的有用任务能力。

AI 2027 等研究的图表暗示，未来几年我们可能达到一个节点——AI 模型可以完成不仅耗时几分钟或几小时、而是几天、几周、几个月甚至几年的任务。最终，数百万个 AI 模型协同工作，可能完成整个人类组织或整个科学共同体目前所做的工作。

通往人类级 AI 还缺什么

如果规模化能带我们走很远，还缺什么？Kaplan 认为剩余要素相对简单：

组织知识 (Organizational Knowledge)：AI 模型不应以空白状态迎接用户，而应能学习在公司、组织、政府内部工作，拥有如同在那里工作多年的人的上下文。
记忆 (Memory)：在执行耗时很长的任务时，需要跟踪进展、构建相关记忆并加以利用。这已经开始在 Claude 4 中构建，并将日益重要。
监督 (Oversight)：让 AI 模型理解细微差别、解决模糊困难任务的能力。当前 RL 在代码通过测试或数学题正确等清晰标准上进展迅速，因为这些标准非常明确。但我们需要 AI 模型帮助生成更细致的奖励信号 (Reward Signal)，以便让 RL 应用于讲好笑话、写好诗、培养好的研究品味等任务。
更多模态和更复杂任务：从文本模型向多模态模型再到机器人领域迈进。预期未来几年在各领域持续获得规模化的收益。

为 AI 未来做准备的建议

构建尚不能完全运作的产品：这通常是个好建议，但对 AI 尤为重要。AI 模型正在飞速进步——如果某个产品因为 Claude 4 还不够聪明而无法运作，你可以预期 Claude 5 将使该产品可行并创造巨大价值。在 AI 能力的边界上实验，因为这些边界正在快速移动。
用 AI 来集成 AI：AI 发展如此之快，我们还没来得及将其集成到产品、公司、科学等各个领域。利用 AI 来加速 AI 的集成过程将非常有价值。
找到 AI 快速采用的领域：编码领域已出现 AI 集成的爆发。关键问题是：软件工程之外还有什么能增长那么快？

炉边对话：Claude 4 与 AI 协作

Claude 4 的改进：Claude 3.7 Sonnet 已在编码方面令人兴奋，但有时过于急切 (Too Eager)——为了通过测试会做用户不想要的事情（如添加过多的 try-except）。Claude 4 改进了作为智能体 (Agent) 的能力，不仅限于编码，还涵盖搜索等多种应用；同时改进了监督能力，使其更好地遵循指令、提升代码质量。此外还增强了记忆的保存和检索能力——Claude 4 可以在复杂任务中突破上下文窗口 (Context Window) 限制，通过将记忆存储为文件或记录并在后续检索，跨越多个上下文窗口持续工作。

规模化定律描绘的是渐进进步的图景，Claude 每次发布都会在多个方面稳步提升。规模化暗示了一条通往人类级 AI 或通用人工智能 (AGI) 的平滑曲线。

AI 与人类协作：AI 的智能形态与人类不同——人类有很多事做不到但至少能判断做得对不对，而 AI 的判断能力与生成能力更为接近。这意味着人类在与 AI 协作中的一个重要角色是作为管理者 (Manager) 进行合理性检查 (Sanity Check)。

从 YC 批次中观察到，去年很多公司仍以副驾驶 (Co-pilot) 模式销售产品——例如客户支持中仍需人类最终审批。但在最近的批次中，AI 模型已足够强大，可以端到端完成任务，创始人开始直接销售完整工作流的替代方案。Kaplan 认为对于 70-80% 准确率就够用的用例，构建产品更有趣，因为可以真正触及 AI 能力的前沿。但同时在推进可靠性。目前人类与 AI 协作仍是最有趣的领域，但长期来看，越来越多任务将被完全自动化。

AI 在科学中的角色：Kaplan 区分了需要深度 (Depth) 的智能和需要广度 (Breadth) 的智能。数学中可以花十年证明一个定理（如费马大定理 Fermat's Last Theorem），这是解决一个极其具体困难的问题。但在生物学、心理学或历史学等许多领域，关键在于将大量跨领域信息整合——AI 在预训练阶段已经吸收了人类文明的全部知识，因此没有人比它知道得更多。利用这种广度来产生跨领域洞察（例如在生物学研究中）可能是一个特别的机会——即"知识过载"(Knowledge Overhang) 的领域。

物理学思维与 AI 研究

Kaplan 回忆遇到杰出的 AI 研究者会说"学习正在指数收敛"之类的话，他只是问极其愚蠢的问题——"你确定是指数吗？会不会只是幂律？二次函数？"这种简单问题却非常有成效。规模化定律的圣杯 (Holy Grail) 是找到更好的斜率 (Slope)——这意味着投入更多计算时，你将比其他 AI 开发者获得越来越大的优势。但在精确描述趋势之前，你不知道"打败它"意味着什么、能打败多少、如何系统判断是否达到了目标。

大矩阵近似 (Large Matrix Approximation)——取神经网络非常大的极限——在物理和数学中是已知的近似方法，已被应用于 AI。但总的来说，问非常天真的问题往往比应用极其复杂的技术更有效。AI 在当前形态下可能只有 10-15 年历史，极其年轻，许多最基本的问题（如可解释性 Interpretability）尚未被回答。

可解释性 (Interpretability) 更像生物学或神经科学而非物理学——核心是理解大脑的特征。AI 相比神经科学的优势在于你可以测量一切——不能测量大脑中每个神经元和突触的活动，但在 AI 中可以，因此有更多数据用于逆向工程。

规模化定律会失效吗

规模化定律已经持续了五个数量级以上。Kaplan 表示，他主要用规模化定律来诊断 AI 训练是否出了问题。当规模化定律看起来失效时，他的第一反应是我们在 AI 训练中做错了什么——可能是神经网络架构有问题、训练中存在看不见的瓶颈、或算法精度有问题。过去 5 年中，每次规模化似乎出了问题，最终都是因为训练方式有误。因此需要很多证据才能说服他规模化定律不再成立。

算力效率与 Jevons 悖论

当前 AI 确实效率很低，但 AI 价值巨大，所以解锁最强前沿模型的价值极高。公司如 Anthropic 正在尽可能快地推进 AI 训练和推理的效率，同时解锁前沿能力。算法和计算扩展每年带来约 3-10 倍的推理效率提升。更低精度（如 FP4、FP2、三进制表示）将是提高推理效率的众多途径之一。

但当前 AI 发展远未达到均衡——AI 改进极快、变化极快，尚未充分实现当前模型的潜力。Kaplan 指出这本质上就是 Jevons 悖论 (Jevons Paradox)：随着智能变得更好，人们会想要更多，而不是因为成本降低而减少需求。价值可能集中在最强大的模型上——虽然可以用更便宜的系统完成许多小任务，但能端到端完成复杂任务的前沿模型要方便得多。不过这也取决于 AI 集成者能否极其高效地利用 AI。

给早期创业者的建议

理解这些模型如何工作、能够高效地利用和集成它们，将带来巨大价值。在 AI 能力的边界上构建——如果你构建的产品因为当前模型还不够聪明而无法运作，下一个模型可能就会让它可行。

观众问答

关于任务时间跨度的指数增长：为什么预训练损失呈线性改善但任务时间跨度呈指数增长？Kaplan 认为关键在于自我纠正 (Self-correction)——决定模型能完成多长任务的核心因素是它注意到自己犯错并纠正的能力。不需要巨大的智能提升就能多发现一两次错误并纠正，但每次纠正可能将任务完成距离翻倍。这只是一个直觉模型，实证趋势本身才是最有趣的东西。

关于获取验证信号的路径：对于编码等已有足够好的产品可以部署并获取验证信号的领域，RL 改进路径清晰。对于其他领域，是否只能靠大量标注者 (Data Labelers) 来推进？Kaplan 认为最坏情况就是逐步构建越来越复杂的长时域任务并用 RL 训练——考虑到 AI 投资水平和创造的价值，人们会这样做。但更好的路径是用 AI 模型提供更细致的监督——不是问"你七年后拿到终身教职了吗"这种极其低效的端到端反馈，而是在过程中持续提供"这部分做得好、那部分做得差"的细粒度信号。

关于用 LLM 生成 RL 任务：目前是人类和 AI 混合——既用 AI 尽可能多地生成任务（如用代码），也请人类创建任务。随着 AI 变得更好，希望能更多利用 AI。