OpenAI 的 o1 和 o3 模型如何进行复杂推理？

cover

摘要

本视频解析了 OpenAI o1 模型实现复杂推理的核心机制——思维链 (Chain of Thought) 过程。o1 模型在面对复杂问题时，并非直接输出答案，而是模仿人类逐步拆解问题的思维模式：将问题分解为更小的步骤，识别自身错误并加以纠正，尝试不同策略，并根据需要调整方法。这种"思维链"策略并非全新概念——早在 2022 年，Google Brain 的研究者就已提出。视频以经典的披萨分片问题为例，清晰展示了有无思维链时大语言模型 (LLM) 行为的根本差异：没有思维链时，模型仅预测最可能的下一个词元 (Token)，往往因上下文不足而出错；有思维链时，模型能逐步推理并得出正确答案。这一机制也正是 o3 模型推理能力进一步提升的基础。

正文

o1 的推理方式：模仿人类思维

如果 o1 模型在"推理"，那么它的推理方式与人类解决复杂问题有多相似？答案是：非常相似。o1 利用思维链 (Chain of Thought) 过程将问题拆解为更小的步骤。

实际上，许多人在使用更早的模型（如 GPT-4o）时就已经采用了类似的策略——在提示词 (Prompt) 中加入"请一步一步思考"(Think Step by Step) 或"深呼吸，逐行分析"(Take a Breath and Go Line by Line) 等指令。o1 模型将这一策略内化：它会按步骤推进，识别自身错误并尝试纠正，尝试不同的解题策略，并根据需要调整方法。换言之，它不是简单地"吐出"答案，而是以一种映射人类推理 (Human Reasoning) 的方式来解决问题。

思维链的起源

这种策略并非 o1 首创。事实上，"思维链"(Chain of Thought) 这一概念早在 2022 年就由 Google Brain 的研究者正式提出，并已成为提示工程 (Prompt Engineering) 中的重要技术。

实例演示：披萨分片问题

视频直接引用了思维链原始论文中的经典案例来说明：

约翰有一个被切成 8 等份的披萨。约翰吃了 3 片，他的朋友吃了 2 片。还剩多少片？

思维链的拆解过程如下：

识别总片数：披萨被切成 8 个等份。
计算已吃掉的片数：约翰吃了 3 片，他的朋友吃了 2 片，共吃掉 3 + 2 = 5 片。
用总数减去已吃片数：8 - 5 = 3，还剩 3 片。

没有思维链时会发生什么？

如果没有思维链的逐步拆解，大语言模型 (LLM) 的行为模式截然不同：它会尝试直接预测最可能出现的下一个词元 (Token)。在许多情况下，问题中提供的上下文信息不足以支撑一次性跳到正确答案，模型因此容易出错。思维链的引入实质上为模型创造了更多的"推理空间"，使其能够在中间步骤中积累和处理信息，最终得出更可靠的结论。这一机制也正是 o3 模型在推理能力上实现进一步提升的基础——更长的思维链、更强的自我纠错能力，带来了更出色的复杂问题求解表现。