为何 OpenAI 的 o1 是重大突破 | YC 解码

cover

摘要

OpenAI 最近发布了全新模型 o1-preview 与 o1-mini，它们代表了语言模型的一个全新类别：专为复杂推理而设计。o1 在数学、编程和科学基准测试中表现惊人，可媲美博士生水准，但其核心突破并不在于知识储量，而在于“思考”方式的彻底革新。与通过海量文本预训练直接预测答案的传统大语言模型不同，o1 通过内部生成并优化思维链（Chain of Thought），将难题拆解为多个中间步骤，并在推理过程中不断试错、修正与调整策略，模仿人类的思考路径。OpenAI 采用大规模的强化学习（Reinforcement Learning）来训练 o1 自主生成合成思维链，并通过奖励模型不断精进，使得模型不仅能在训练时演进，在推理时投入的算力越多、思考时间越长，答案的准确度也越高。这一“推理时缩放法则”意味着模型的能力将随着计算资源的增加而持续跃升。Sam Altman 甚至将当前的 o1 类比于 GPT-2 阶段，预示着数年内可能达到 GPT-4 级别的飞跃。尽管 o1 仍存在幻觉和边缘场景下表现不佳等问题，它已标志着大模型从“记忆答案”向“记忆推理过程”的范式转移，开启了通用人工智能的全新路径。

正文

全新推理模型登场

OpenAI 推出两款划时代新模型：o1-preview 与 o1-mini。它们正是 Sam Altman 数月来多次暗示、曾用代号“Q*”与“Strawberry”指代的神秘项目。这两款模型共同构成一个全新的模型类别，其设计目标并非单纯的语言生成，而是对复杂问题进行深度推理（Reasoning）。o1 是第一个能够执行相当高级推理的系统。当你交给它一道高难度的编程挑战、数学难题或科学问题时，它能够给出异常出色的结果。在物理、化学、生物等领域极具挑战性的基准任务中，o1 的表现接近博士生水平，尤其在数学与编程方面遥遥领先。

值得注意的是，与 GPT-4o 的用户偏好对比显示，在处理非正式、主观性较强的任务——如创意写作或文本润色——时，用户并不总是青睐 o1。这很可能源于 OpenAI 训练该模型时所采用的独特方法。可以公允地说，o1-preview 与 o1-mini 共同构成了一类全新的大语言模型。

思维链：让模型学会“思考”

如果 o1 的核心能力是推理，那么问题便在于：它的推理方式与人类处理复杂问题的方式有多相似？o1 利用思维链（Chain of Thought）流程，将问题拆解为更细小的步骤。许多用户已在使用类似策略引导早期的模型，例如对 GPT-4o 说“一步步思考”或“深呼吸，逐行分析”，模型便会依次推进，识别自身错误、尝试修正、变换策略并按需微调方法。换言之，o1 并非简单地吐露答案，而是以一种镜像人类推理的方式去“攻克”问题。

思维链这一术语早在 2022 年就由 Google Brain 的研究者在一篇论文中正式提出。该论文展示了一个经典示例：约翰有一块被切成 8 等份的披萨，约翰吃了 3 片，他的朋友吃了 2 片，问还剩几片？应用思维链时，模型会被引导首先识别总片数（8 片），接着计算约翰和朋友吃掉的数量（3+2=5），最后从总数中扣除，得出剩余 3 片。如果不分解步骤，大语言模型就只能尝试预测最可能的下一个词元，而在单一请求中，上下文往往不足以支撑准确的逻辑推演。

强化学习：训练自主推理的新范式

既然大量用户已在手动应用思维链，OpenAI 究竟如何实现跃升？官方并未过多披露细节，但一个合理的推测是：其 AI 研究者表示，无论对 GPT-4o 施加何种提示工程（Prompt Engineering），都无法使其能力比肩 o1。这是因为新模型采纳了一种全新的训练方式——强化学习（Reinforcement Learning）。这种机器学习方法让模型通过试错从自身行动中学习，通常以奖励与惩罚作为正负行为的引导信号。

OpenAI 并未止步于仅用人类撰写的思维链来训练 o1，而是进一步对其展开大规模强化学习。这意味着他们允许模型生成自己的合成思维链，以模拟人类推理。这些思维链随后由奖励模型（Reward Model）评判，并用于进一步训练和迭代微调。OpenAI 发现，o1 的表现会随着强化学习的增加和“思考”时间的延长而持续提升。这不仅意味着基础模型可经由持续训练不断进化，更关键的是，在实际部署中，当用户向 o1 抛出一个复杂问题时，允许它“思考”的时间越长、OpenAI 在推理期间能使用的算力越多，最终的回答就越精准。

这是否意味着 o1 只会一路飞升？答案几乎是肯定的。我们已知，尚未发布的 o1 版本仍在持续演化。o1-preview 被描述为完全成熟模型的一个早期版本，有望在接下来的数周或数月内正式推出。少数 YC 系的初创公司已获得早期访问权限，其反馈堪称惊人。事实上，近期发表的研究证明，借助思维链，大语言模型理论上可以解决任何本质上具有串行特性的问题。这意味着这一系列模型的前景近乎无限——只要有足够的计算资源。Sam Altman 更指出，基于推理时的缩放法则（Inference Time Scaling Laws），我们可以确信这些模型将在未来实现快速迭代。他将当前的 o1 模型类比于GPT-2 阶段，暗示我们很可能在几年内目睹其向 GPT-4 级别的飞跃。

真推理还是假象？

o1 究竟是否真正在进行推理？抛开哲学讨论，我们可以公平地给出肯定的回答。o1 处理需要规划的复杂问题时，会生成属于自己的中间步骤序列，逐一求解，并在多数情况下（虽非始终）得出正确结果。或许更精准的表述是：o1 标志着从“记忆答案”的模型向“记忆推理过程”的模型的迁移。

当然，o1 仍远非完美。它偶尔会出现幻觉（Hallucination），遗忘细节，并在面对分布外问题时显得挣扎。与所有模型一样，更好的提示工程——尤其是那些指出边界案例或引导推理风格的提示——仍可对结果进行小幅改善。但根本性的飞跃已经发生：模型不再只是模式匹配的快速应答器，而是开始内化思考路径本身。

展望与局限

据 OpenAI 内部研究者透露，公司已规划了一系列激动人心的更新，包括为 o1 添加代码解释器（Code Interpreter）和浏览等工具支持，扩展更长的上下文窗口（Context Window），并最终实现多模态（Multimodality）能力。当这些能力陆续登场，唯一悬而未决的问题便只剩一个：你将用 o1 构建出怎样的未来？