Sam Altman:OpenAI 的未来、ChatGPT 的起源与构建 AI 硬件

摘要
本文是对 OpenAI 首席执行官 Sam Altman 在 Y Combinator 活动上深度对谈的逐章精译。Altman 回顾了 OpenAI 创立之初近乎"抛硬币"的艰难抉择——2015 年,通用人工智能 (AGI) 听起来近乎天方夜谭,DeepMind 似乎遥不可及,但一小群人选择了相信并投身其中。他讲述了如何在 99% 的人认为是疯狂的方向上聚拢全球顶尖人才,以及从八个人的小团队到世界级公司的历程。
对话深入探讨了当前 AI 行业的关键趋势:推理模型 (Reasoning Models) 带来的产品创新机遇、模型能力与实际产品之间巨大的"产品过盛区" (Product Overhang)、即将发布的开源模型、以及记忆功能 (Memory) 如何指向一个持续运行、主动协助用户的 AI 伴侣愿景。Altman 还分享了 GPT-5 及更长远的统一模型路线图——融合深度推理与完整多模态能力,以及从软件到具身智能 (Embodied AI) 再到机器人战略的延伸。
此外,他阐述了对创业防御性 (Defensibility) 的思考、对"逆向但正确" (Contrarian but Right) 信念的坚持、AI Agent 将如何重塑工作流、人机交互的下一场革命、与 Jony Ive 合作打造全新计算设备的雄心、以及"即时软件" (Just-in-Time Software) 范式对 SaaS 的冲击。最后,Altman 从更宏观的视角分享了他对 AI 驱动科学发现、能源与智能的深层联系、以及创业者所需信念与韧性的深刻洞见。
一、OpenAI 的诞生:一个近乎"抛硬币"的决定
Altman 首先回顾了 OpenAI 创立之初的关键决策。2015 年,通用人工智能 (AGI) 听起来几乎是天方夜谭——当时还没有任何一个真正可用的语言模型,OpenAI 只是在尝试让 AI 打电子游戏,以及用一个简陋的机械手勉强还原魔方。DeepMind 看起来遥不可及地领先,而 AGI 更像是一个不切实际的幻想。
Altman 坦言,OpenAI 差一点就没有诞生。在整个 2015 年,他们一直在讨论是否要启动这个项目,而最终的决定几乎像是"抛硬币" (coin flip)——很多人都有充分的理由说"不该做"。Altman 认为,许多雄心勃勃的事业都面临同样的处境:看起来如此困难,有如此多合理的反对理由,以至于真正需要的,是一小群人坐在一个房间里,互相看着对方的眼睛,说:"好,我们来做这件事。"他建议,当你犹豫不决时,应该倾向于选择迎难而上。
二、聚拢顶尖人才:1% 的共鸣者
当 OpenAI 决定"我们要去追求 AGI"时,99% 的人认为他们疯了,但 1% 的人产生了深深的共鸣。而事实证明,这 1% 里面有很多非常聪明的人,而且他们没有其他地方可去——当时没有任何其他组织以 AGI 为核心使命。
Altman 指出,如果你做的事情和其他人一样,很难聚拢人才,也很难让人们真正相信一个使命。但如果你做的是独一无二的事情 (one-of-one thing),就会获得强大的顺风。这是创业中的一个重要观察:独特的使命是最强的人才磁石。
三、从零开始:大事物不以大规模起步
当被问及是否应该一开始就尝试做一个"OpenAI 规模"的事情时,Altman 明确表示:OpenAI 一开始并非 OpenAI 规模。它最初只是八个人在一个房间里,然后是二十个人在一个房间里,完全不清楚该做什么,只是努力写出一篇好的研究论文。
他引用了 Venode Kla 的一句名言:一个零百万美元的创业公司和一个零十亿美元的创业公司之间有着巨大的区别,但它们的收入都是零美元,都是几个人坐在房间里,都只是在努力让第一个东西运转起来。唯一的建议是:选择一个市场——如果成功了,它有可能变得很大。但除此之外,就是一步一个脚印地长期前行。
四、产品过盛区:推理模型带来的巨大机遇
Altman 认为,当前正处于一个非常有趣的时期:模型的能力已经达到了一个新高度,但人们基于这些模型构建的产品远远落后——这就是所谓的"产品过盛区" (Product Overhang)。即使模型不再进步(当然它们会继续进步),也有大量新东西可以构建。
与此同时,模型的使用成本正在急剧下降——o3 模型上周的价格是本周的五倍,而这种趋势将会持续。Altman 预言,人们对性价比的下降幅度将会感到震惊。此外,OpenAI 即将推出开源模型,他暗示这将远超人们的预期,使得在本地运行极其强大的模型成为可能。
Altman 特别强调,推理模型 (Reasoning Models) 代表了一种全新的"元素周期表上的新方块",目前还没有人用这个新方块来构建东西。就在最近一个月,才开始看到创业公司意识到推理模型是不同的——整个交互模式 (Interaction Model) 都不一样——并真正为此构建产品。这是一个构建公司的绝佳时机。
五、记忆功能与 AI 伴侣的愿景
Altman 表示,记忆 (Memory) 是他今年最喜欢的 ChatGPT 功能。他认为这指向了产品未来的方向:你将拥有一个逐渐了解你的实体,它连接到你所有的信息,主动地帮助你——不再只是你发一条消息、它回一条消息,而是它会一直在后台运行,查看你的信息,知道何时给你发送消息,知道何时代表你去做事情。
Altman 描绘了一个更宏大的图景:你将拥有专属的新型设备,它将集成到你所使用的每一个服务中,成为贯穿你一生的伙伴。记忆功能是人们第一次能够隐约看到这一愿景的迹象。
六、从"Her"到现实:渐进式的实现路径
当被问及电影《她》(Her) 中描绘的 AI 伴侣何时到来时,Altman 表示答案是"渐进式"的。记忆功能已经是一小步;当 AI 能够持续在后台运行并向你推送信息时,会更近一步;当 OpenAI 发布第一款新设备时,将是巨大的一步。
但他强调,"Her"的核心不是那块小硬件,而是这个系统达到了可以在后台运行、感觉像一个 AI 伴侣 (AI Companion) 的程度。
七、MCP 与数据整合:ChatGPT 作为操作系统
Altman 确认,MCP (Model Context Protocol,模型上下文协议) 正在接入 OpenAI。人们已经开始将 ChatGPT 当作一个操作系统 (Operating System) 来使用,把整个生活都放在里面。整合尽可能多的数据源非常重要——包括始终伴随你的设备、新型网络浏览器、与所有数据源的连接、记忆功能,以及持续运行的模型。把这些全部组合起来,将达到一个非常强大的境地。
关于云端还是本地的选择,Altman 认为是混合模式。他表示,如果能把一半的 ChatGPT 工作负载推到用户的本地设备上,没有人会比 OpenAI 更高兴——因为他们很快将运营世界上最大、最昂贵的基础设施。
八、规模化的挑战:从零到全球第五大网站
ChatGPT.com 两年半前还不存在,如今已是全球第五大网站,如果当前增长率持续,将成为第三大,并有望成为第一大。Altman 承认,这种规模的扩张在任何情况下都是困难的,而且通常你有比这更长的时间来为新公司扩展基础设施。
九、GPT-5 及未来:推理与多模态的融合
当被问及推理模型(如 o3、o4 mini)与多模态模型(如 GPT-4o)这两条线索何时汇聚时,Altman 表示,虽然 GPT-5 不会完全实现这一目标,但最终他们想要的是一个统一的集成模型——在需要时能够推理,在需要时能够生成实时视频。
他描绘了一个场景:当你提出一个问题时,它可以深入思考、进行研究、即时编写代码来创建一个仅供你使用的全新应用,或者渲染你可以交互的实时视频。这将感觉像一种全新的计算机界面。当一个模型同时具备真正的完整多模态能力——完美的视频、完美的编码、一切——以及深度推理时,那将非常强大。
十、从软件到具身智能:机器人时代即将来临
Altman 认为,拥有视觉、语音和推理能力是通往机器人的一大步。OpenAI 的策略是先把软件端做好,然后确保能够将其连接到机器人上。机器人的时代即将来临。
他甚至畅想了一个未来:当你订阅 ChatGPT 最高级别会员时,OpenAI 会免费送你一个人形机器人 (Humanoid Robot)。能够拥有在现实世界中做真正工作的机器人,这个未来将会非常疯狂。
Altman 认为我们距离机器人做超级有用的事情并不远了。机器人领域的机械工程一直相当困难,认知部分的 AI 也同样困难,但现在感觉已经触手可及。制造十亿台机器人仍然需要时间,但他对一个问题很感兴趣:如果你以传统方式制造一百万台人形机器人,它们能否运行整个供应链——驾驶采矿设备、驾驶集装箱船、运营铸造厂、制造新机器人?也许你真的可以很快地在世界上部署大量机器人,但世界对人形机器人的需求将远远超过当前供应链所能提供的。
十一、制造业回流与 AI 的新可能性
当被问及如何确保美国拥有制造业和工业产能时,Altman 指出,人们一直在抛出各种政策方案,但显然都没有奏效。他认为所有政策都值得尝试,但他的直觉是:我们需要尝试一些新的东西,不应该继续重复那些已经失败的做法。
AI 和机器人确实为我们提供了一种新的可能性——以一种真正重要的新方式将制造业和复杂产业带回美国。这至少值得尝试。
十二、创业防御性:不要做 OpenAI 正在做的事
这是创业者最常问的问题:如何避免被 OpenAI 轧过去?Altman 的回答是:OpenAI 并不想轧过任何人。OpenAI 将专注于做好自己的事情——打造最好的超级助手 (Super Assistant),但他们所做的只是面前巨大机遇中的一小部分。
Altman 表示,当有人说"我要做一个 ChatGPT 的替代品"时,他们感到遗憾——因为 OpenAI 在这方面有相当大的先发优势,而且会做得相当好。但除此之外,还有如此广阔的领域可以去探索,已经有无数了不起的公司基于 OpenAI 的平台构建。
他透露了 OpenAI 希望成为平台的几个方向:ChatGPT 可以为新创业公司导流;ChatGPT 内部可以构建一种新的应用/Agent 商店;OpenAI 可以提供"使用 OpenAI 登录" (Sign in with OpenAI) 功能,让用户将个性化模型轻松连接到新的创业公司服务上。
Altman 进一步指出了创业中的群体思维问题:人们往往在同一时间对同一件事感到兴奋,而不是去做自己想到的、不同于其他所有人的事情。他打赌,如果列出人们最常想用 AI 构建的前五个想法,房间里一半的人会举手说自己正在做其中之一。但未来某天比 OpenAI 更大的公司,其创始人很可能不在那五个方向上。
十三、逆向但正确:面对质疑的信念
Altman 回顾了关于"逆向但正确" (Contrarian but Right) 的理念。当其他聪明人告诉你你错了时,保持信念是非常困难的。那些说这很容易的人并不诚实——它会随着时间变得容易一些,但绝不会轻松。
Altman 分享了一个具体的例子:在 OpenAI 成立几年后,Elon Musk 给他们发了一封非常刻薄的邮件,说他们成功的概率是零——不是接近零,而是完全的零。当时他们刚给他展示了 GPT-1,他的评价是"这东西是垃圾,行不通,毫无意义"。而 Musk 是 Altman 当时的偶像。Altman 回忆那天晚上回家后的感受:"万一他说得对呢?这太糟糕了。"
当你将生命倾注于一件事,而你敬仰的聪明人告诉你"你完全错了"、"这永远不会成功"、"你没有防御性"、"有人会击败你"——Altman 坦承自己没有神奇的答案,只能说这确实非常艰难。它会随着时间显著变得容易一些,但这将发生在每个创业者身上——你被击倒,然后爬起来,拍拍身上的灰尘,继续前行。
十四、AI Agent:工作流的消失与新生
Altman 认为,很长一段时间以来,ChatGPT 本质上是一个 Google 替代品——你可以问它一些大约相当于半小时 Google 搜索量的问题,它仍然感觉像是一个更高级的搜索版本。
但现在,你可以真正地将任务交给 Codeex 或深度研究 (Deep Research),让它去做一堆事情,然后带着一个方案回来——这就像一个非常初级的员工,可以在短时间内完成一项工作。如果你想想世界上有多少工作是在电脑前完成的、以几小时为单位的、然后由某人评判"够不够好"——这个比例相当大。
Altman 认为这将走得很远,而且仅凭当前的 o3 模型——更不用说下一代模型——就能构建大量这样的体验。
十五、人机交互的下一场革命:界面的消融
Altman 认为,科幻作品对人机交互的一个洞察是正确的:界面几乎会消融。当前的语音界面被认为不太好用,但理论上,如果你能对计算机说"这就是我今天想要发生的事情,如果有任何变化——我迟到了、出了什么状况——我相信你会去处理所有这些事情,但我不想被打扰,我不想去想它",然后它就全部做好了,而且你信任它的结果——那将是一个几乎消融的界面。
Altman 描述了他使用手机时的感受:就像走在纽约时代广场上被人撞来撞去——通知来了、弹窗出了、闪烁的亮色、各种引人分心的东西——就是压力山大。他想象一个界面,计算机大部分时间消融在背景中,做你需要的事,你真正信任它在信息呈现上的判断——知道何时不打扰你、何时代表你行动。
十六、Jony Ive 与新的计算革命
Altman 确认了与 Jony Ive 合作的原因:在过去的 50 年里,我们只经历了两次计算机界面的重大革命——键盘+鼠标+屏幕,以及触控+手机。做一次新革命的机会并不常来,而 AI 确实为全新的东西打开了赛场。如果你要选一个人来押注他能想出答案,Ive 是显而易见的选择。
十七、即时软件:LLM 作为界面的未来
当讨论到未来 B2B SaaS 可能面临的颠覆——底层是数据库,上面是 API 层(访问控制和业务逻辑),而界面就是大语言模型 (LLM),软件按需即时生成——Altman 的回答简洁有力:"这将会发生。"
他将这种变革分为两个视角:一方面,如果你是一家 SaaS 公司,所有代码都可以即时生成,这意味着什么?另一方面,这种变化将发生在每个人身上,而创业公司的优势在于比大公司迭代更快、成本更低。大公司有很多优势,但迭代非常缓慢;如果某件事成本很低,它们的许多优势就消失了。
Altman 的核心建议是:每个人都会面临同样的挑战和机遇,但当行业的时钟周期 (Clock Cycle) 变化如此之大时,创业公司几乎总是赢家——而我们可能从未见过变化如此之大的时钟周期。
十八、智能时代的个体赋能
Altman 认为,技术发展的整体脉络是一个故事:我们发现更多科学,构建更好的工具,社会整体把脚手架搭得更高。而这一切的核心在于,一个人能比以前做更多的事。
未来十年与过去十年最大的不同将在于:一个具有高度能动性 (Agency) 的个人或小团队能完成的事情将大幅增加。这比听起来更重要,因为协调成本 (Coordination Costs) 是巨大的。当我们赋予人们更多知识、工具和资源时,我们看到的不是多一点东西被建造出来,而是由于人际间协调成本的降低,我们将看到真正的结构性变化。
Altman 回顾了 OpenAI 的故事——关键的是几十个做出了惊人工作的人,但他也提醒自己要记住,历史上数以千万计的人从挖矿到发明半导体、建造计算机、构建互联网,让这个小团队能够在如此高的影响力层级上工作——没有社会的集体产出,这是不可能的。
十九、AI 驱动科学发现:最令人兴奋的长期愿景
当被要求选择一个最令人兴奋的方向时,Altman 选择了"AI 驱动科学发现" (AI for Science)。他相信,从一阶近似来看,世界上所有长期的可持续经济增长——一切让人类生活变得更好的东西——基本上都源于发现新科学,以及拥有相当良好的治理和制度,使科学能够被开发并与世界分享。
如果我们能通过 AI 大幅提高新科学发现的速度,Altman 相信这将以复利方式累积,为每个人的生活带来难以置信的提升和奇迹。
二十、能源与智能:两条原本独立的线索
Altman 坦承了一个有些尴尬的事实:他长期以来一直痴迷于能源和 AI,认为这是最重要的两件事——也是他最想投入时间和资本的领域。但在创办 OpenAI 之前,他从未想过这两者会如此明显地关联——能源最终会成为我们能够拥有多少智能的根本限制因素。
他不知道自己怎么错过了这个关联,因为他通常很擅长思考这类问题。在 2015 年之前,他确实把它们视为独立的向量:AI 负责产生所有想法,能源负责让所有事情在世界上发生。但创办 OpenAI 后不久,他就对"为 AI 提供能源"变得痴迷。
Altman 提到了一个他长期着迷的图表:人类历史上生活质量与人均能源可得量及能源成本之间的高度相关性。正是这类图表让他最初痴迷于能源——这是影响力极高的领域。
现在他经常思考的是:在地球上我们到底能建设多少能源,才能避免仅仅因为运行 GPU 而让地球过热?我们还有多久就必须把所有 GPU 放到太空里?
二十一、反增长与乐观主义
Altman 表示他从未参加过欧洲的反增长 (Degrowth) 会议,但他一直有点想去体验一下——坐在黑暗寒冷中,没有人掏出手机,谈论一切有多糟糕、没有希望——他想体验一次那种心态,因为他从未有过那种感受。
反增长运动是他最难认同的运动之一。旧金山创业圈、科技行业、AI 领域的乐观主义才是他大脑自然栖息的空间。虽然他很难真正共情另一面,但他相当确信,我们是对的,他们是错的。
二十二、晶体管类比:AI 的价值创造之路
Altman 提到了他最喜欢的 AI 类比:晶体管 (Transistor)。当一些人做出了这个重要的新科学发现后,社会和经济只是自然地运转起来,发挥了它的魔力——想出了如何为人们创造巨大的价值,并在相当短的几十年里显著提高了生活质量。
他认为 AI 的发展将比晶体管更快、更陡峭,但方向相同:做出伟大的技术,解决剩余的科学问题(他认为剩下的不多了),建设好创业者们需要的基础设施,然后让创业者们去弄清楚这个新魔法能满足世界上的人们什么需求。
二十三、回到 2005:Y Combinator 的起点
Altman 回忆了 2005 年参加 Y Combinator 第一批的经历。他是通过 Blake Ross(和他住在同一栋新生宿舍的人)在 Facebook 上发帖得知当时还叫"夏季创始人计划" (Summer Founders Program) 的项目的。
关于 Paul Graham 问他"你是大一新生,还有下一批"的那封邮件,Altman 最近刚找出了当年的回复——比他后来转述的版本要客气得多。他写的是:"可能有些误会,实际上我是大二学生,我还是可以赶上的,如果可以的话我很想第二天就来。"
二十四、给年轻自己的建议:信念、韧性与勇气
当被问及会给 2005 年的自己什么建议时,Altman 分享了几点:
-
信念与韧性 (Conviction and Resilience) 的重要性——人们不太谈论这有多难。坚持一小段时间容易,但你的储备会逐渐消耗殆尽,如何长期维持是关键。
-
相信最终会成功——他的第一个创业公司 Loopt 并不太成功,很多人在第一次创业失败后就放弃了。但创业本来就不总是成功的,学会在失败中继续前行非常重要。
-
发展对自己直觉的信任——随着你不断磨练决策和直觉,增加对自身判断的信任,这非常重要。
-
有勇气去做不合潮流但你真正相信和关心的事情——这非常重要。
Altman 最后用一个类比作结:他最近有了孩子,所有人都告诉他,这是你能做的最好的事,但也是最难的事——好的部分比你想象的更好,难的部分则难得多。这完全正确。而这基本上也是他作为创业者的感受:好的部分真的非常好,比你想象的更好;难的部分则令人震惊地更难——难到没有人能用任何让你真正理解的方式来表达。而你必须继续走下去。