为何 OpenAI 的 o1 是重大突破 | YC 解码

cover

摘要

OpenAI 最近发布了全新模型 o1-preview 与 o1-mini,它们代表了语言模型的一个全新类别:专为复杂推理而设计。o1 在数学、编程和科学基准测试中表现惊人,可媲美博士生水准,但其核心突破并不在于知识储量,而在于“思考”方式的彻底革新。与通过海量文本预训练直接预测答案的传统大语言模型不同,o1 通过内部生成并优化思维链(Chain of Thought),将难题拆解为多个中间步骤,并在推理过程中不断试错、修正与调整策略,模仿人类的思考路径。OpenAI 采用大规模的强化学习(Reinforcement Learning)来训练 o1 自主生成合成思维链,并通过奖励模型不断精进,使得模型不仅能在训练时演进,在推理时投入的算力越多、思考时间越长,答案的准确度也越高。这一“推理时缩放法则”意味着模型的能力将随着计算资源的增加而持续跃升。Sam Altman 甚至将当前的 o1 类比于 GPT-2 阶段,预示着数年内可能达到 GPT-4 级别的飞跃。尽管 o1 仍存在幻觉和边缘场景下表现不佳等问题,它已标志着大模型从“记忆答案”向“记忆推理过程”的范式转移,开启了通用人工智能的全新路径。

正文

全新推理模型登场

OpenAI 推出两款划时代新模型:o1-previewo1-mini。它们正是 Sam Altman 数月来多次暗示、曾用代号“Q*”与“Strawberry”指代的神秘项目。这两款模型共同构成一个全新的模型类别,其设计目标并非单纯的语言生成,而是对复杂问题进行深度推理(Reasoning)。o1 是第一个能够执行相当高级推理的系统。当你交给它一道高难度的编程挑战、数学难题或科学问题时,它能够给出异常出色的结果。在物理、化学、生物等领域极具挑战性的基准任务中,o1 的表现接近博士生水平,尤其在数学与编程方面遥遥领先。

值得注意的是,与 GPT-4o 的用户偏好对比显示,在处理非正式、主观性较强的任务——如创意写作或文本润色——时,用户并不总是青睐 o1。这很可能源于 OpenAI 训练该模型时所采用的独特方法。可以公允地说,o1-preview 与 o1-mini 共同构成了一类全新的大语言模型。

思维链:让模型学会“思考”

如果 o1 的核心能力是推理,那么问题便在于:它的推理方式与人类处理复杂问题的方式有多相似?o1 利用思维链(Chain of Thought)流程,将问题拆解为更细小的步骤。许多用户已在使用类似策略引导早期的模型,例如对 GPT-4o 说“一步步思考”或“深呼吸,逐行分析”,模型便会依次推进,识别自身错误、尝试修正、变换策略并按需微调方法。换言之,o1 并非简单地吐露答案,而是以一种镜像人类推理的方式去“攻克”问题。

思维链这一术语早在 2022 年就由 Google Brain 的研究者在一篇论文中正式提出。该论文展示了一个经典示例:约翰有一块被切成 8 等份的披萨,约翰吃了 3 片,他的朋友吃了 2 片,问还剩几片?应用思维链时,模型会被引导首先识别总片数(8 片),接着计算约翰和朋友吃掉的数量(3+2=5),最后从总数中扣除,得出剩余 3 片。如果不分解步骤,大语言模型就只能尝试预测最可能的下一个词元,而在单一请求中,上下文往往不足以支撑准确的逻辑推演。

强化学习:训练自主推理的新范式

既然大量用户已在手动应用思维链,OpenAI 究竟如何实现跃升?官方并未过多披露细节,但一个合理的推测是:其 AI 研究者表示,无论对 GPT-4o 施加何种提示工程(Prompt Engineering),都无法使其能力比肩 o1。这是因为新模型采纳了一种全新的训练方式——强化学习(Reinforcement Learning)。这种机器学习方法让模型通过试错从自身行动中学习,通常以奖励与惩罚作为正负行为的引导信号。

OpenAI 并未止步于仅用人类撰写的思维链来训练 o1,而是进一步对其展开大规模强化学习。这意味着他们允许模型生成自己的合成思维链,以模拟人类推理。这些思维链随后由奖励模型(Reward Model)评判,并用于进一步训练和迭代微调。OpenAI 发现,o1 的表现会随着强化学习的增加和“思考”时间的延长而持续提升。这不仅意味着基础模型可经由持续训练不断进化,更关键的是,在实际部署中,当用户向 o1 抛出一个复杂问题时,允许它“思考”的时间越长、OpenAI 在推理期间能使用的算力越多,最终的回答就越精准。

这是否意味着 o1 只会一路飞升?答案几乎是肯定的。我们已知,尚未发布的 o1 版本仍在持续演化。o1-preview 被描述为完全成熟模型的一个早期版本,有望在接下来的数周或数月内正式推出。少数 YC 系的初创公司已获得早期访问权限,其反馈堪称惊人。事实上,近期发表的研究证明,借助思维链,大语言模型理论上可以解决任何本质上具有串行特性的问题。这意味着这一系列模型的前景近乎无限——只要有足够的计算资源。Sam Altman 更指出,基于推理时的缩放法则(Inference Time Scaling Laws),我们可以确信这些模型将在未来实现快速迭代。他将当前的 o1 模型类比于GPT-2 阶段,暗示我们很可能在几年内目睹其向 GPT-4 级别的飞跃。

真推理还是假象?

o1 究竟是否真正在进行推理?抛开哲学讨论,我们可以公平地给出肯定的回答。o1 处理需要规划的复杂问题时,会生成属于自己的中间步骤序列,逐一求解,并在多数情况下(虽非始终)得出正确结果。或许更精准的表述是:o1 标志着从“记忆答案”的模型向“记忆推理过程”的模型的迁移。

当然,o1 仍远非完美。它偶尔会出现幻觉(Hallucination),遗忘细节,并在面对分布外问题时显得挣扎。与所有模型一样,更好的提示工程——尤其是那些指出边界案例或引导推理风格的提示——仍可对结果进行小幅改善。但根本性的飞跃已经发生:模型不再只是模式匹配的快速应答器,而是开始内化思考路径本身。

展望与局限

据 OpenAI 内部研究者透露,公司已规划了一系列激动人心的更新,包括为 o1 添加代码解释器(Code Interpreter)浏览等工具支持,扩展更长的上下文窗口(Context Window),并最终实现多模态(Multimodality)能力。当这些能力陆续登场,唯一悬而未决的问题便只剩一个:你将用 o1 构建出怎样的未来?