Gmail 之父保罗·布克海特论通用人工智能、开源模型与自由

cover

摘要

在本期节目中，Gmail 的创造者保罗·布克海特 (Paul Buchheit) 深入探讨了人工智能的发展轨迹，从他早年在谷歌的经历一直谈到通用人工智能 (AGI) 的未来。他指出，谷歌从诞生之初本质上就是一家人工智能公司，其使命是汇集全球数据并投入庞大的 AI 超级计算机。然而，正是由于对颠覆搜索广告收入以及引发监管审查的担忧，这家拥有所有先发优势的巨头变得极度风险规避，最终在 AI 赛道上被 OpenAI 等灵活的初创公司赶超。

布克海特作为 OpenAI 创立的早期亲历者，揭示了其源头——Y Combinator 研究项目——背后的真实故事。他认为，AI 是人类所发明的最强大的技术，其未来有两条路：一条是权力走向中央集权，可能导致灾难性的个体能动性丧失，甚至走向极权主义；另一条是他的心之所向，即通过开源和自由，让每个人都拥有超乎寻常的智能和能力，赋予每个人更大的自主权。他强调，必须建立一个广泛的联盟来捍卫开源 AI，以此来对抗那些通过立法来锁定一切、扼杀创新的“控制派”和“末日论者”。

正文

第一章：谷歌——最初的 AI 公司及其“咒语”

保罗·布克海特 (Paul Buchheit) 的职业生涯与人工智能有着不解之缘。他回忆道，早在1995年，他就尝试构建了一个三层神经网络，用于进行简单的字符识别（OCR），尽管那时的模型只有大约100个权重，与今天动辄数万亿参数的模型不可同日而语。

但真正将 AI 理念深植于心的，是他在1999年6月加入谷歌的经历。当时，谷歌还只是帕罗奥图 (Palo Alto) 大学大道上一家甜品店楼上的小型初创公司。布克海特生动地描述了那种激动人心的氛围：“在那里工作大约一周后，我甚至试图索取更多的股权，结果发现必须在接受工作前就谈好条件。” 但从一开始，他就清晰地认识到谷歌的本质。拉里·佩奇 (Larry Page) 和谢尔盖·布林 (Sergey Brin) 的目标不仅仅是做搜索，而是构建大规模计算集群，对收集到的所有数据进行机器学习。用布克海特的话说，谷歌的使命，即“整合全球信息，使人人皆可访问并从中受益”，其真实含义就是“将全球所有的训练数据投入一个巨大的 AI 超级计算机”。事实上，谷歌的起源——PageRank 算法，至今仍是许多机器学习课程中教授的基础性 AI 算法之一。他们认为，拥有足够的数据才是通往智能的路径，而非仅仅无止境地迭代小算法。

布克海特亲自为谷歌贡献了其最早的 AI 魔力之一：拼写纠正功能。这个想法的诞生，源于他自身不擅长拼写。当他在谷歌查看搜索查询日志时，发现约三分之一的查询都包含拼写错误。为了抓住这个“最容易赢得的品质提升”，他先基于现有的拼写检查库做了一个初步功能，又通过简单的统计过滤来屏蔽那些荒谬的建议（例如，将“Turbo Tax”纠正为“turbot axe”，后者是一种鱼）。他深知可以利用谷歌拥有的海量网络数据和数十亿搜索查询来创建一个更好的系统。他用这个问题作为面试工程师的题目，80%的人束手无策，而仅有的一位给出惊艳答案的工程师，后来被他立即雇用了。这位名叫戈梅·沙齐尔 (Gome Shazirer) 的工程师，在入职的头两周内，就利用假期时间发明了我们今天所知的“您是不是要找” (Did You Mean) 功能。它史无前例地能够纠正专有名词，甚至能准确纠正“Buchheit”这个姓氏。沙齐尔后来也成为 AI 历史上的关键人物，是著名论文《注意力是你所需的一切》 (Attention Is All You Need) 的核心作者之一，并创办了 Character AI。布克海特感慨，谷歌的拼写检查器没有字典，纯粹基于网络数据和查询日志来预测最可能的纠正，这使其成为首个被大众广泛使用、真正奏效的 AI 应用。

第二章：拥有所有要素，为何谷歌在 AI 竞赛中落后了？

主持人提出了一个许多人困惑的问题：谷歌在数据、算力、人才上拥有全部优势，为何没有成为今天主导世界的 AI 公司？布克海特认为，尽管他已不在谷歌（2006年离职），但根据他的外部观察，问题的关键在于谷歌转型为 Alphabet 之后，公司不再由创始人直接运营，其核心战略变成了保护和维持其在搜索领域垄断地位。搜索广告是一座巨大金矿，而 AI 恰恰是一项具有内在破坏性的技术。它一方面可能摧毁现有的商业模式（如果 AI 直接给出正确答案，用户就不需要点击整页的广告了），这一点甚至在1998年的原始谷歌论文中就已被指出——搜索引擎公司天生就在盈利和提供正确答案之间存在矛盾。另一方面，AI 可能会彻底激怒监管机构，因为 AI 模型必然会说出冒犯性的言论，而谷歌相当一部分业务依赖于应对监管。

因此，谷歌陷入了极度风险规避的状态。布克海特举了内部的例子：戈梅·沙齐尔带领团队开发了一个聊天机器人，但公司内部甚至不允许给它取一个像“人类”一样的人性化名字，最终被迫改名为 LaMDA。他们还有个叫做 Imagen 的图像生成模型，但内部研究人员被禁止用它生成任何人类形态的图像。这种自我设限，导致当 OpenAI 推出 ChatGPT 时，谷歌只得被迫应战。讽刺的是，OpenAI 率先为“发表疯狂和冒犯性言论”挡了监管的“子弹”，谷歌后来才得以推出一个“更干净的”版本。布克海特认为，如果谢尔盖和拉里仍在掌舵，凭借他们的威信或许能推翻这种风险厌恶。但在一个由职业经理人主导、以保护垄断和规避风险为首要任务的环境中，谷歌注定会错失良机。

第三章：OpenAI 的真实起源——一次反“封锁”的自由行动

OpenAI 的创立，与 Y Combinator (YC) 有着千丝万缕的联系，它最初的形态是“YC 研究” (YC Research)。布克海特回忆，在2010年代初，他们密切关注着深度学习的进展。当看到 AI 在玩电子游戏等方面展现出真实、令人印象深刻的能力时，整个 YC 都意识到，AI 不再是一个飘渺的科幻概念。

与此同时，埃隆·马斯克 (Elon Musk) 等人开始拉响警钟，认为 AI 可能会毁灭人类，并提议进行监管。布克海特则对此持反对意见，他认为政客们不会真正做出明智且有远见的决定，推行监管只会让事情变得更糟。他的建议是，与其试图禁止 AI，不如亲自下场构建它，以此来影响它的发展方向。另一个核心动机，是担忧 Google 在收购 DeepMind 后会将 AI 技术完全封锁在其内部，不为外部世界所用，尤其是对 YC 的创业生态圈不利。因此，“开放”成了关键，他们希望创建一个能为整个创业生态提供滋养的开放的 AI 组织。

萨姆·奥尔特曼 (Sam Altman) 展现了他非凡的组织能力，从埃隆·马斯克以及保罗·格雷厄姆 (PG)、杰西卡·利文斯顿 (Jessica Livingston) 等人那里筹集了最初的捐款。他招募了格雷格·布罗克曼 (Greg Brockman) 和伊尔亚·苏茨克维 (Ilya Sutskever) 等顶尖研究人员，其中伊尔亚的面试便是由布克海特亲自进行的。OpenAI 最初是作为 YC 的一个子项目启动的，但随着马斯克的深度介入，它逐渐独立出来，成为以马斯克为“门面”的 OpenAI，其与 YC 的渊源甚至一度被要求从公开记录中抹去。布克海特认为，OpenAI 的本质是一个 AI 领域的“初创公司”，它之所以成功，正是因为它提供了谷歌所没有的东西：快速行动的自由和将研究成果公之于众的承诺。这吸引了那些不愿意在谷歌内部被重重封锁、无法交付产品的顶级人才。和所有成功的初创公司一样，它的成功恰好是因为竞争对手——谷歌——在当时是一个错误激励下的、反应迟缓的巨头。尽管当时的邮件显示，就连马斯克都认为他们成功的几率为零，这看起来像是一场疯狂的豪赌。但最终，是大型语言模型 (LLM)，特别是 GPT-2 的出现，通过看似简单的“预测下一个词”，让 AI 学会了构建现实模型，从而彻底改变了战争的格局。

第四章：开源——通往自由还是依赖单点的赌注？

布克海特将 AI 的未来总结为两条道路的选择：一条是走向中央集权，所有权力被政府或少数几家科技巨头牢牢掌控；另一条是走向自由，将强大的能力和工具赋予每一个个体，让每个人都能成为“最好的自己”。他认为前者对人类来说是灾难性的，因为这会最大限度地削弱个人的能动性。他设想了一个世界，在那里每个人都可以拥有200的智商，并用这种力量去创造，比如可以让一个孩子制作出皮克斯 (Pixar) 级别的动画电影。这种创造力的释放令人惊叹。

在这场斗争中，开源 (Open Source) 扮演了试金石和基石的角色。开源等同于真正的自由，它是言论自由的基石，是第一修正案权利的体现。如果模型被锁在一个充满关于“什么是可接受的思想”的规则的系统中，那么我们将从根本上失去一切自由。思想自由是言论自由的前提，如果你连构思要表达的思想的自由都没有，那么言论自由便毫无意义。

然而，开源 AI 的未来似乎依赖着像马克·扎克伯格 (Mark Zuckerberg) 及其 Meta 公司这样强大的个体。Meta 投入巨资发布开源模型（如 Llama），虽然在某种程度上是出于商业战略（削弱竞争对手、吸引人才、通过 AI 改进广告和推荐算法来反哺其核心业务），但这确实为开源社区注入了宝贵的血液。这与当年谷歌因为能从搜索广告中赚大钱，所以能免费提供 Gmail 的存储服务是同一个逻辑。Meta 通过发布接近闭源 API 性能的开源模型，可以摧毁潜在竞争对手的研发预算和毛利率，这是一个极为高明的“釜底抽薪”式策略。

但布克海特警告，绝不能将全部赌注都押在 Meta 或扎克伯格一个人身上。我们必须建立更广泛的、支持自由和开源的联盟。虽然目前训练前沿模型的天文数字成本（可能高达十亿美元）是一个重要的“中心化”因素，但他对此持乐观态度，认为未来的学习算法和硬件都将有数量级的效率提升。人类大脑仅需约15瓦的功率就能运转，这证明我们当前的算法效率还有巨大的提升空间。

第五章：通用人工智能、白领职业的未来与“控制”的威胁

布克海特坚信我们正在通往通用人工智能 (AGI) 的道路上。他认为，一个关键的节点已经到来：AI 发展已过“盈亏平衡点”，即投入到 AI 领域里的钱，开始产生更大的回报。这就像互联网在90年代中期跨过“临界点”一样，更多的投入带来更惊人的产出，进而吸引更多的投入，形成了一个自我强化的循环。这种投入规模已经上升到了国家安全层面，需要增加全国的电力供应来训练 AI。

对于未来，布克海特给出了一个非常具体的预测：到2033年，许多基于 Zoom 的知识型工作可以被 AI 替代。AI 可以观察一个人在电脑前的所有数字行为（摄像头画面、音频、键盘鼠标输入），快速学习其工作模式，然后在另一边“深度伪造”(Deepfake) 出这个员工。你可能在和一个 AI 开会而浑然不觉。这引发了一个根本问题：当所有这些工作都被替代之后，人类该何去何从？布克海特认为，这正是我们必须开始思考的长期愿景，而答案又回到了“权力分配”的问题上。

他严厉批评了“控制”的路径，即所谓的“末日论者”(Doomers) 所鼓吹的路线。这些末日论者并非 AI 时代的新生事物，他们的思想可以追溯到工业革命时期，甚至更早，比如70年代预测大规模饥荒的《人口爆炸》(The Population Bomb) 一书。这些论调的共同点是，它们总是极力推动中央集权、封锁和控制，从强制性绝育到控制食品供应和信息流动。他们所谓的打击“错误信息”，本质上是打击任何威胁其控制权的东西。

如今，这种控制理念正通过一些立法提案化为现实，例如 SB 1047 法案，试图让模型开发者对模型可能造成的后果承担个人甚至刑事责任。布克海特认为，这极其阴险且有害，相当于因为有人酒后驾车撞了人，就把汽车设计师送进监狱。这种无限责任将使得没人敢去触碰模型开发，从而变相地实现了政府对 AI 的完全控制。这种控制与发生在新冠疫情期间的社交媒体信息管控如出一辙——如果人类连世界上最重要的事情都无法自由探讨和理清真相，那么我们也将无法理解任何事物。相比之下，中国的 AI 创始人据传已被要求对模型的输出承担个人责任，这恰恰也从反面证明了没有自由的环境就无法创造出最优秀、最追求真理的 AI。布克海特特别赞扬了 xAI 公司“最大限度追求真理”的使命宣言，他认为极权政体本质上就是“否认真理”的，这让他们在竞争中处于劣势。

最终，保罗·布克海特坚信，Y Combinator 这样的组织和整个创业生态圈肩负着巨大使命。AI 正在放大个人的能力，或许未来很小的团队就能创造出极其成功的公司。通过不断创造出更多令人惊叹、能激发人们想象力的工具，我们正在向一个充满希望的未来前进。对抗“控制派”的最佳方式，不是依靠秘密的政府实验室（那只会造出“天网”），而是在阳光之下，集合更广泛的人群和更务实的创业者，去开发一个赋予个体力量、追求真理的 AI。我们的未来取决于我们的选择：是滑向官僚僵化和中央集权，还是迈向一个通过技术赋能每个普通个体的、更加自由和繁荣的时代。