缩放定律如何决定 AI 的未来 | YC 解码

摘要
大型语言模型(Large Language Model, LLM)正变得越来越大、越来越聪明。过去几年间,AI 实验室找到了一条看似必胜的策略——缩放定律(Scaling Laws):更多参数、更多数据、更多算力,模型就会持续改进。如同摩尔定律(Moore's Law)每 18 个月性能翻倍,AI 的性能翻倍周期已缩短至约 6 个月。2019 年 GPT-2 发布时仅有 12 亿参数,次年 GPT-3 的参数量则是其 100 倍以上。2020 年 OpenAI 发布的开创性论文揭示了参数、数据和算力三者的幂律关系,而 2022 年 Google DeepMind 的 Chinchilla 研究进一步证明,仅增大模型不够,还必须配以充足的数据。然而,近期关于缩放定律是否已触顶的争论愈演愈烈——最新一代模型的智能提升似乎不再与算力投入成正比,高质量训练数据的枯竭也成为瓶颈。与此同时,OpenAI 推理模型 o1 和 o3 的出现开辟了全新范式:测试时计算(Test Time Compute)。通过让模型在推理时"思考更久",o3 在软件工程、数学和博士级科学问题上大幅刷新了纪录。缩放预训练可能正在趋缓,但缩放测试时计算或许刚刚开启了通向通用人工智能(Artificial General Intelligence, AGI)的全新篇章。对于图像扩散模型、蛋白质折叠、化学模型乃至机器人世界模型,缩放的早期阶段才刚刚开始。
正文
GPT-2 与 GPT-3:缩放时代的开启
2019 年 11 月,OpenAI 发布了 GPT-2,其最大模型拥有 12 亿参数。次年夏天,继任者 GPT-3 问世,这在此之前从未出现过的模型——不仅远比 GPT-2 更有用、更易用,其参数量更是 GPT-2 的 100 倍以上。缩放定律的时代正式到来。
在 GPT-3 之前,LLM 已经在变得更大,但增大规模是否值得仍是未知数——没有人能保证将模型扩大 100 倍就能带来 100 倍的性能提升。如果遭遇边际收益递减(Diminishing Returns)怎么办?
缩放定律论文:三要素的幂律关系
直到 2020 年 1 月,Jared Kaplan、Sam McCandlish 及其 OpenAI 同事发布了具有深远影响的论文《缩放定律与神经语言模型》(Scaling Laws for Neural Language Models),整个领域才开始真正关注这一规律。
可以将训练 AI 模型想象为一份食谱,包含三大原料:
- 模型本身——更大的模型拥有更多参数(Parameters),即神经网络中用于做出预测而被调整和训练的内部数值。
- 训练数据——以词元(Tokens)衡量,对于 LLM 而言通常是单词或单词的片段,更大的模型通常在更多数据上训练。
- 计算力(Compute)——训练更大的模型需要更多 GPU 运行更长时间、消耗更多能源。
论文揭示的核心发现是:同步增大参数、数据和算力,模型性能会呈现平滑、一致的提升,且遵循幂律(Power Law)规律。性能的提升更多地取决于规模,而非具体算法。
同年晚些时候,OpenAI 的更多研究证实,这些缩放定律同样适用于其他类型的模型——文本生成图像、图像生成文本,甚至数学领域,都存在相同的缩放规律。
Gwern 与缩放假说
2020 年初,LLM 缩放定律在 OpenAI 之外几乎无人知晓,只有一个人例外——匿名研究者和作家 Gwern。他是最早聚焦于所谓"缩放假说"(Scaling Hypothesis)的人之一:增大规模、数据和算力,智能就会涌现。"也许智能真的只是大量算力作用于大量数据、大量参数的结果。也许 Moravec、Legg 和 Kurzweil 是对的。"Gwern 的文章将缩放定律带入主流视野,这一最初的安静观察逐渐转变为 AI 发展的基础性原则。
Chinchilla:数据同样关键
2022 年,Google DeepMind 发布了他们关于缩放定律的研究,补上了重要的一块拼图——不仅仅要增大模型,还要确保用足够的数据来训练。
研究人员希望在给定算力预算下找到最优的模型规模和训练数据配比,因此训练了超过 400 个不同规模、不同数据量的模型。令人惊讶的发现是:此前如 GPT-3 等模型实际上是训练不足的(Undertrained)——模型很大,但训练文本不够充分。
为验证这一点,他们训练了 Chinchilla——一个不到 GPT-3 一半大小的模型,但训练数据量是 GPT-3 的四倍。结果表明,Chinchilla 远远优于两倍甚至三倍于其规模的模型。这些被称为"Chinchilla 缩放定律"的发现意味着:训练最优模型不仅仅是让模型更大,还要有足够的数据来喂养它。
Chinchilla 是通往当今前沿 AI 模型(如 GPT-4o、Claude 3.5 Sonnet 等)道路上的重要里程碑。各实验室学会了可以信赖缩放定律,并可靠地获得越来越好的模型。
缩放定律触顶之争
那么,AI 的未来就是无限增大的模型吗?近期 AI 社区内部关于缩放定律是否已达极限的争论日益激烈。一些人认为,随着最新一代模型变得更大、更昂贵,能力提升已开始趋于平台化(Plateau)。与此同时,主要实验室内部也传出训练失败和边际收益递减的传闻。
另有人推测,缺乏高质量数据来训练新模型已成为主要瓶颈——"如果我们非常朴素地看,距离耗尽数据并不遥远,因此我们可能没有足够的数据来延续缩放曲线。"
推理模型与新范式:测试时计算
如果旧的缩放定律开始失去优势,接下来会怎样?OpenAI 新一代推理模型(Reasoning Model)暗示了一个潜在的新方向。
o1 学会了通过自身的思维链(Chain of Thought)来思考复杂问题。OpenAI 研究人员发现,o1 能够思考的时间越长,表现就越好。而其继任者 o3 的发布,则将这一新缩放范式的上限推到了令人瞩目的高度——o3 在软件工程、数学和博士级科学问题上,轻松超越了此前的最佳纪录。o3 不仅仅是对前代的小幅改进,而是巨大的飞跃。
OpenAI 研究人员表示,他们有充分理由相信这一轨迹将持续下去,甚至可能通向通用人工智能。
从预训练缩放到测试时缩放
核心转变在于:与其在训练阶段持续增大模型规模,研究人员更可能转向缩放模型在推理时可用的计算量——即思维链的计算,也被称为测试时计算(Test Time Compute)。通过让模型思考更久,o1 和 o3 等 LLM 可以在需要时动态调用更多算力,为越来越难的问题提升智能水平。
缩放预训练(Pre-training)或许已经趋平,但通过训练测试时计算,OpenAI 可能刚刚开启了一个全新的缩放定律范式,有望释放我们从未想象过的能力。
缩放的早期游戏才刚开始
大型语言模型是通向通用人工智能的关键一环,而同样的缩放原则似乎也适用于其他模型——图像扩散模型(Image Diffusion Model)、蛋白质折叠(Protein Folding)和化学模型,甚至自动驾驶等机器人领域的世界模型(World Model)。
有一点是确定的:对于大型语言模型而言,这可能已是中局(Midgame);但对于其他模态的缩放而言,我们显然还处于早期阶段(Early Game)。系好安全带。