为何下一个AI突破将在推理能力而非规模扩展

cover

摘要

在本期《光锥》播客中，Y Combinator的三位投资人围绕Sam Altman近期发表的“智能时代”文章展开了深入讨论。Altman预测通用人工智能（AGI）与超级人工智能（ASI）将在数千天内到来，而推动这一进程的关键并非单纯的大模型规模扩展，而是推理能力的质的飞跃。

对话系统性地梳理了OpenAI从2015年创立之初便持有的核心理念——AI将加速所有科学领域的进步。这一愿景如今正通过o1模型及其背后的强化学习与思维链技术成为现实。嘉宾通过两个来自YC被投企业的真实案例展示了这一突破：二极管计算机公司利用o1从零生成完整的可穿戴设备电路板设计，而Camper公司则借助o1在CAD设计中求解纳维-斯托克斯方程来优化机翼气动外形。这两个案例中，GPT-4o无法完成的任务在o1上实现了从0%到85%以上的准确率跃升。

讨论进一步指出，o1的成功路径源于OpenAI在DOTA游戏AI中积累的强化学习经验，并可能与大量数学、科学等事实正确性强的训练数据有关。与传统的预训练扩展（pretraining scaling）不同，推理时计算扩展（inference-time compute scaling）代表了一个正交的全新研究方向，其潜力可能被市场低估。

最后，嘉宾为初创企业指明了方向：在o1这类推理模型的时代，真正的护城河在于获取专有数据构建高质量评估集（evals），并由此打造100%准确率的垂直行业解决方案。同时，那些仅依赖思维链基础设施的AI编码代理类公司可能会面临被模型能力内化而淘汰的风险。

正文

一、序言：一个贯穿十年的愿景

我至今仍清晰记得，大约一年前，关于我们能否实现通用人工智能（AGI）的诸多讨论中，有一个极具代表性的论点：终有一天，AI会变得足够强大，强到能够比人类更好地设计芯片，进而一举消除制约其自身智能增长的物理瓶颈。

如今看来，我们正以一种前所未有的态势，稳步走在这条通往临界点的道路上。欢迎回到《光锥》播客的新一期节目。我是Gary，这位是Jared，这位是Diana。在我们Y Combinator，投资组合公司的总估值已超过六千亿美元，每年资助数百家公司。正因如此，我们始终站在前沿，敏锐地观察着初创企业界以及AI领域即将发生的变革。

近期，Sam Altman发表了一篇相当引人瞩目的文章，预言通用人工智能（AGI）乃至超级人工智能（ASI）将在“数千天”内降临。而在本周一与他会面时，他更是直接给出了一个4到15年的具体时间窗口。这个判断，与我们十年前所见证的起点一脉相承。

二、从“痴人说梦”到“势在必行”：Sam Altman不变的信念

OpenAI本质上是从YC孵化而出的，这让我们获得了一个独特的近距离观察视角。阅读Sam这篇文章时，最令我震撼的一点在于，文中宣扬的核心理念竟与他在2015年创立OpenAI时的说辞如出一辙。自从我认识这个人起，他就一直在谈论这些想法。

时间拨回2015年，当Sam提出这些观点时，他在大多数人眼中或许像个疯子。彼时，没有多少人真正把他的预言当回事。然而，十年后的今天，事实证明他是对的——我们距离AGI比2015年任何人想象的都要近得多。如今，这些言论再听起来，已非天方夜谭，而是完全合情合理的推演。

这篇文章堪称我多年来读过的最具技术乐观主义色彩的文字。它所描绘的未来图景相当狂野：建立太空殖民地、彻底解决气候问题、利用智能实现能源解放……本质上，Sam正在依托人类智能对物理学全部奥秘的掌控力，试图引领我们步入一个如同《星际迷航》般的未来。

当初驱使Sam创办OpenAI的一个核心动机正是：他坚信一旦拥有AGI，它做科学研究的能力将远超人类，从而加速所有科学领域的进步速率。这一信念，与他后来对o1模型的极度推崇密切相关。

三、推理能力：解锁科学加速的关键拼图

早在o1模型向公众发布之前，Sam在一年前的YC批次活动上同我们交流时，尽管项目尚处于保密研发阶段，他当时最急于分享的想法，就是赋予GPT更高级的推理能力。这正是实现上述“科学加速”愿景所必需的关键拼图。要让AI真正从事科学研究、加速技术进步，它就绝不能仅仅满足于模式匹配，而必须具备缜密的“思考过程”。

关于o1的潜力，有一篇论文专门阐述了其当前能力与未来潜能。文中特别提到了它在芯片设计领域展现出的惊人实力。这立刻让我回想起了那个经典论断：当AI能够设计出比人类更优越的芯片时，它就能亲手拆除自身算力增长的硬件障碍。而如今，借由o1，我们似乎已经真切地踏上了这条演进之路。

接下来，Diana将用一个精彩的演示案例，来直观展现o1如何将上述理论变为现实。这项成果出自我们与OpenAI联合举办的黑客松活动。

四、动手实践：o1如何重塑电路板与机翼设计

1. 二极管计算机：从自然语言到印刷电路板

这家名为“二极管计算机”的公司，正在构建一个面向电路设计的AI设计师系统。在印刷电路板（PCB）设计的四大步骤中，最昂贵且最依赖专家经验的环节当属“系统设计”——即如何搭建整体架构，选择所需的电阻、传感器、处理器等组件，随后才能进入布局和布线阶段。

布线本身是一个NP完全问题。由于电路板存在多层结构且存在信号干扰，像英伟达、英特尔、苹果这样的巨头都不得不雇佣成百上千的电气工程师来应对这一挑战。在GPT-4o时代，这家公司已经通过施加约束条件，成功实现了大量原本需人工完成的原理图设计自动化，并在一定程度上解决了简单布线问题。

然而，他们借助o1模型展示的新突破，则将自动化推向了“系统设计与组件选型”这最后一块技术高地。这一进展堪称颠覆性。现在，AI能够读取所有组件的数据手册，并自主选出匹配的部件。

其产品工作流如下：用户只需提出一个极高层次的需求，例如，“我想设计一个搭载加速度计和微控制器的可穿戴心率监测器”。系统在获得这些约束条件并检索数据库后，就能精准匹配出具体的加速度计型号、微控制器型号以及心率监测传感器型号，并直接将它们连接起来，输出最终的设计成果。

演示过程中，o1直接生成了一套相当完备的系统框图，包含USB-C接口、惯性测量单元（IMU）以及心率传感器。随后，系统利用一种名为Arile的电路设计代码语言，将该框图自动“缝合”成可执行的代码。第二步，软件更进一步生成了电路板组件的物理布局图，并且能够调用自动布线器，最终产出一个功能完备的、可直接用于生产的印刷电路板设计文件。

值得一提的是，OpenAI那篇关于o1的论文中确实提及了其在EDA上的应用潜力，但论文主要着墨于后端流程中的原理图验证与仿真。而“二极管计算机”公司的实际应用，则是更进一步，直接攻克了前端更具创造性的系统构建与部件选择难题。

在技术架构上，这家公司采用了当前最前沿的模式组合：由于o1处理速度相对较慢且成本高昂，他们用GPT-4o mini来执行PDF文档这类非结构化数据的提取转化工作，再利用o1的深度推理能力去执行精细的组件选型任务。这种“多模型分工协作”的模式，正成为构建高价值AI产品的主流范式。

2. Camper：会“思考”的计算机辅助设计

在同一个黑客松中，还涌现出了另一家聚焦于深度推理应用的公司——Camper。他们的口号是“面向计算机辅助设计的AI开发工具”，其产品功能惊人：用户只需通过自然语言输入设计需求，它就能直接输出CAD设计稿。

Jared现场进行了实测，他下达了一个极其专业的指令：“为我设计五款机翼，要求针对50英里/小时的速度进行优化，在5度攻角下满足最小升阻比为15的条件。”通常情况下，这需要一位机械工程师通过求解复杂方程组并运行多次仿真才能完成。

而Camper系统在接收到指令后，屏幕上快速闪烁的界面背后，是系统正在并行运行多个物理仿真。更令人惊叹的是，o1在此过程中展示了它的“数学解题思路”——它不仅调用了软件的操作菜单，还在后台显示出了它的思维链轨迹，罗列并求解了一系列偏微分方程，实质上是在进行纳维-斯托克斯方程层面的近似求解。

这表明o1不仅仅是在“画画”，它真的在进行底层物理逻辑的推理。这对于传统的计算机辅助设计而言，相当于配备了一名能与物理定律“对话”的协作伙伴。

五、技术溯源：从DOTA战场到思维链推理

o1模型的诞生并非凭空而来，它的许多灵感都能追溯到OpenAI成立早期的工作，其中一项重要积累便是《DOTA》游戏AI项目。

在因GPT声名鹊起之前，OpenAI在科技圈内最知名的成就之一便是训练AI击败《DOTA》顶尖人类玩家。《DOTA》是一款极其复杂的策略游戏，涉及精细的资源管理与长期规划。为了攻克它，OpenAI的团队深度应用了强化学习技术，让AI通过数百万次自我博弈来不断进化。这背后的核心，与DeepMind的AlphaGo及AlphaZero一脉相承，即依靠奖励函数进行动态求解，而非单纯的暴力穷举。

强化学习中最基础且关键的一族算法便是Q学习。正是因为历经DOTA项目的磨炼，OpenAI在强化学习领域积累了深厚的技术功底。

那么，如何将这种在游戏中磨砺出的强化学习能力，嫁接到GPT这类生成式模型家族中呢？这便构成了o1模型一次巨大的阶跃式创新。

GPT系列的本质是基于海量数据预测下一词元，其生成结果虽符合统计规律，却未必符合严密逻辑。要让模型学会推理，就必须引入大量事实绝对正确（具有真值）的数据——例如数学题与科学难题，以此作为训练的基石。同时，还需要设计精巧的奖励函数，引导模型在输出结果前进行更多的内部反思与校验，确保生成内容的逻辑正确性。这背后无疑涉及大量未公开的“秘密配方”，外界普遍推测其关键在于使用了高度精练、去伪存真的数据源，这也解释了o1为何在数学和编程基准测试中表现卓越。

六、研究范式的分化：规模扩展与推理时计算

当下，许多人的目光都聚焦在GPT-5这类下一代大模型的大幅度规模扩展上，它们正在紧锣密鼓地训练中并随时可能面世。

然而，公众可能严重低估了另一个方向的解锁潜力。目前，AI领域存在两个并行的研究方向：
- 其一，是底层大语言模型的直线式规模扩展（Scaling up the underlying LLM），即以更大的参数量和数据集进行训练；
- 其二，则是以o1为代表的全然正交的研究路径——让模型在真实世界任务中通过强化学习自我提升。

截至目前，我们见到的还仅仅是o1的预览版。根据OpenAI发布的性能对比图，即将发布的完整版o1相较于预览版又将是一次巨大的跃升。而这正是黑客松上那些令人瞠目的成果得以实现的基石。Sam更向我们透露，o2和o3也已箭在弦上。因此，推理能力的突破曲线之陡峭，很可能远超市场的普遍预期。

从商业视角看，o1的架构至今仍高度不透明。为了训练其思维链，OpenAI不惜投入巨额成本，构建了一个庞大的全新数据集。该数据集的核心逻辑可概括为：“给定任务X，请你将其分解为若干子步骤并分步求解。”这一做法，与我们此前探讨过的“多步提示”理念惊人地吻合。

YC合作律师Jake Heller曾为法律AI工具CaseText总结出一条铁律：如果一个大语言模型在你的任务上频繁出现幻觉或不一致输出，那多半是因为你试图让单次提示词承担过多任务。正确的解法是：拆解步骤 + 构建评估集。在o1时代，思维链机制或将自动接管“步骤拆解”工作，但“构建评估集”的重要性不减反增。

七、初创企业的护城河：专有数据、评估集与极致准确度

如果我们将视角叠加到未来，即GPT-5带来两个乃至四个数量级的预训练算力投入增长，一个关键问题浮出水面：作为初创公司，该如何构建自己的护城河？

我的理论是，答案在于 “专有数据下的评估体系”。你必须去构建那包含一万个测试用例的评估集，而获取这些测试用例的唯一途径，就是深入企业内部，获取那些不公开的专有数据。

这正是我们当前YC批次中许多公司正在践行的事。他们在做最艰苦的线下销售，把自己“伪装”进那些看似枯燥、复杂或极冷门的行业岗位中——从应收账款到法务会计，不一而足。你可以得出这样一个推论：凡是公开存在于互联网上的消费级数据，终将被吸收进基础模型之中。因此，你的企业的护城河，必须建立在那些尚未数字化的、特定行业的专有数据之上，并据此打磨出那套可量化、可比较的万级测试评估集。

由此衍生出一个对初创企业极具指导意义的策略：在挑选客户时，应当瞄准那些愿意为“最后10%的极致准确度”支付高额溢价的细分市场。以Camper为例，针对文本生成CAD这项能力，业余爱好者或许满足于快速生成的原型；但在设计飞机零部件的场景中，容错率为零。o1让你能轻松达到80%的原型效果，但只有最强的技术团队，才有能力攻克剩下的20%，从而收获那些要求100%准确度并愿意为此付大价钱的客户。

这引申出一个更深层的论断：AI并未让技术实力变得廉价，恰恰相反，它放大了顶尖技术团队的价值。他们能够凭借最前沿的模型底座，通过精妙的提示词工程、庞大的专有评估体系以及无缝嵌入客户工作流的UI/集成设计，将模型能力兑现为最终的商业化产品。归根结底，软件时代的所有经典护城河——替换成本、品牌效应、分销网络，在AI时代依然牢不可破。

八、AI客服的春天：从0%到85%的跨越

为了进一步佐证“评估驱动”与“o1推理”结合所带来的威力，我们不妨看看GigML这家公司的故事。这是一支来自印度的技术天才创始团队，我们最初资助他们时，还是在做一个毫不相干的领域。他们几经转型，最终扎入了看似红海的AI客户支持赛道。

事实上，虽然AI客服呼声很高，但真实的落地渗透率却很低。原因在于，大多数公司认为，现有的基于规则的自动化系统已经能很好地处理80%的简单重复问题，但对于那些极其复杂、耗费大量人力的边缘案例，AI却束手无策。

GigML的早期实践也印证了这一点。在o1出现之前，他们基于GPT-4和规则引擎搭建的系统，处理复杂案例的准确率基本为零（即完全无法替代人工）。然而，在去年的黑客松上，他们采用了Jake Heller所倡导的方法论——即极度认真地构建并利用评估集，叠加o1模型的能力——奇迹发生了。

他们为印度快商平台Zepto实现了每日3万张工单的自动化处理。要知道，Zepto此前需要雇佣上千名员工来应对这些重复且枯燥的询问，员工流失率极高，平均在职时间不足半年。这恰好印证了：当一项工作高度重复且枯燥时，AI的替代更像是一种对人的解放。

技术指标上的突破更为直观：GigML利用o1预览版，将原先复杂问题上的错误率从70%大幅缩减至仅5%，实现了数量级层面的飞跃。更令人震惊的案例是，在某些他们此前完全无法自动处理（准确率0%）的高难任务上，准确率飙升到了85%。这再次证明，当下我们正处于一个技术起飞的黄金时刻——正如Sam所言，现在就是这些模型历史上最“笨”的时刻，每周都可能出现一个月前还无法实现的新能力。

九、o1的暗面：哪些赛道面临降维打击？

在这场由o1掀起的浪潮中，哪些类型的公司可能得不到同等幅度的赋能，甚至会面临被模型进步所覆盖的风险？

我认为AI编码代理（Coding Agents）或AI程序工程师（AI Software Engineers）类产品需要格外警惕。o1系列在解决编程问题上的能力提升幅度是惊人的。许多该领域的创业团队，此前投入大量资源构建的正是自己的“思维链基础设施”。如今，这部分核心能力正被o1模型内化为一项自带的基础功能。

一旦模型的内在推理不再仅仅是一个不可编辑的黑箱，而变得可解释、可引导时，用户将能够中途干预模型的思考路径，这类工具的壁垒可能会进一步降低。

十、结语：在推理中开启智能与丰饶的新纪元

回到Sam Altman文章的题眼，o1所代表的，正是这种深度推理与思维链能力所指向的未来。

那么，随着o1系列模型问世，哪些全新的创业机会正变得触手可及呢？答案指向了物理世界的深处。由于o1在数学和物理学领域展现出非凡天赋，所有聚焦于机械工程、电气工程、化学工程、生物工程等硬科技领域的初创企业，都将获得前所未有的解锁。这些领域关乎物理世界的原子重组，是真正能够为全人类创造现实丰饶的基石。

当前，社会对AI普遍弥漫着一种恐惧情绪。但技术专家的使命，正是要推动我们尽快跨入那个“智能丰饶”的时代。一旦丰饶的成果显现，恐惧自然会消散。而这个智能的新时代，现在才刚刚拉开序幕。