Anthropic联合创始人:构建Claude Code、GPT-3的启示与LLM系统设计

cover

摘要

本期The Light Cone节目邀请到Anthropic联合创始人Tom Brown,深度回顾了他从MIT毕业21岁进入科技行业,到最终联合创建Anthropic的完整历程。Brown的职业生涯始于朋友的YC创业公司Lanced,随后加入MoPub成为早期工程师,又创办了YC W12的Solid Stage公司,之后加入Grouper交友应用负责工程面试,在此期间与Greg Brockman结下深厚联系。2015年,他鼓起勇气转向AI研究,经过六个月自学后加入OpenAI,最初参与《星际争霸》环境搭建,后来成为GPT-3训练基础设施的核心构建者,亲历了从TPU到GPU的关键架构迁移。2019-2020年,他与Dario Amodei、Daniela Amodei领导的团队共同离开OpenAI创建Anthropic,初期七位联合创始人在疫情期间艰难起步,首批25名来自OpenAI的同事形成了已经磨合好的团队。Brown详细讲述了Claude产品的演进:从最初在Slack中的Claude 1机器人,到ChatGPT发布后重新推出API和claude.ai,再到Claude 3.5 Sonnet在编程领域的突破性成功和Claude Code的诞生。他透露Claude Code最初是内部工程师Boris为帮助Anthropic工程师而搭建的工具,其成功的关键在于将Claude本身视为用户来设计产品。在计算基础设施方面,Brown指出人类正在经历有史以来最大规模的基础设施建设——AGI计算支出每年3倍增长,预计明年将超过阿波罗计划和曼哈顿计划,电力将成为最大瓶颈。Anthropic是唯一同时使用GPU、TPU和Trainium三大平台的顶级实验室。最后,Brown给年轻人的建议是:承担更多风险,追求那些让你的朋友兴奋或让你理想化的自己感到自豪的事情,而非追逐外部凭证。

正文

从MIT到创业公司:狼与狗的心态

Tom Brown于2009年从MIT计算机科学专业毕业,年仅21岁便踏入科技行业。他的第一站是朋友创办的YC创业公司Lanced,Brown作为第一位员工加入。他回忆道,当时甚至被允许参加YC的晚宴活动。

这段经历给了他一个关键的心态转变:在学校里,人们总是给他分配任务,他完成任务——这就像一只狗在碗里等待喂食。但在创业公司里,更像是一群狼必须自己去猎食,否则孩子就要挨饿。这种从被动执行到主动求生的思维转变,成为他后来尝试做更大、更激动人心事情的最宝贵心态。大科技公司只会教你如何在大科技公司工作,而做一只狼有趣得多。

MoPub:渴望成为更强的狼

Lanced运营一段时间后,Brown回到学校继续学业,毕业后加入了移动广告公司MoPub,再次作为早期工程师。他坦言当时编程能力很弱,作为软件工程师非常挣扎,但他知道自己想做更多,只是还不知道怎么做。MoPub的经历帮助他理解了如何将系统扩展到规模化。

Solid Stage:自己的YC公司

2012年冬天,Brown大学里最聪明的朋友提议一起创办YC公司。他们做了Solid Stage——这是在Docker出现之前,目标是让DevOps更简单,本质上是一个"更灵活的Heroku",但实际上意味着一个"更复杂的Heroku"。

他们参加了YC面试,但面试官们不太理解他们要构建什么。Brown承认,他们自己也不太理解。开车回旧金山的路上,他们被叫回去——Trevor Blackwell(TLB)在白板上画了一个生气的表情,写道"你们到底要构建什么?"。最终他们可能解释得足够好,或者Trevor觉得"这些人还是不知道自己在做什么,但也许他们会搞清楚"。

在Solid Stage中途,Brown意识到自己仍然不理解要构建什么,以及如何将一份自己愿意终身从事的使命与之连接。Paul Graham将他介绍给了Grouper的创始人Michael Waxman,Brown随之离开Solid Stage加入Grouper。

Grouper:与Greg Brockman的连接

Grouper是一款独特的交友应用——三男三女一起出游,在酒吧碰面。在AI广泛应用之前,有一组工作人员手动匹配人员,然后他们在酒吧见面,各种趣事随之而来。

Brown加入Grouper的原因很个人化:他是一个非常内向的人,想要一种让像他这样尴尬的人也能出去和别人交流的方式——和朋友们在一起感觉更安全。在Grouper,他负责所有工程面试。唯一比他去Grouper约会更多的人是Greg Brockman——当时Greg在Stripe工作,每周都在公司Slack(当时是HipChat)上发布"我要去Grouper了,谁一起去",持续了整整一年。Brown因此与Greg建立了密切联系,而这个连接日后成为了通往OpenAI的桥梁。

Tinder的出现终结了Grouper的使命。Grouper解决的核心问题是"走出去认识新人的恐惧"——对方可能直接说"我不想和你说话,你看起来很奇怪"。Grouper用盲匹配解决了这个问题,而Tinder用"双方都表达兴趣才匹配"的机制更好地解决了同一个问题。Brown坦言Tinder做得更好。

转向AI:六个月的潜行自学

2014年6月离开Grouper后,Brown花了三个月休息恢复——他在Grouper后期已经精疲力竭,收入在下降,但他的主要工作仍是招聘工程师,不得不向候选人推销一个自己已不再相信的梦想,这简直像一场死亡行军。

他先做了一件Twitch的合同工赚取六个月生活费,然后制定了自学计划。2015年他的自学路径包括:修读Coursera的机器学习课程、尝试Kaggle项目、阅读《Linear Algebra Done Right》、使用统计学教材,并利用YC校友积分购买了一块GPU,通过SSH远程连接进行课程练习。当时主要学习的是图像分类——AlexNet之后各类课程教授的标准内容。

Brown坦言当时在纠结是否转向AI研究。他意识到"在我们有生之年可能会创造出变革性AI(Transformative AI),如果真的做到,那将是最大的事情"。但他大学线性代数只拿了B-(可能还是C++),而当时似乎只有顶级明星才有资格参与AI研究。他的朋友们也觉得"AI安全"听起来像"火星人口过剩"一样不切实际,而且不确定他是否擅长这个。他犹豫了六个月才鼓起勇气做出转变。

加入OpenAI:从星际争霸到GPT-3

OpenAI一宣布成立,Brown就给Greg Brockman发了消息:"我很乐意以某种方式帮忙。我线性代数拿了B-,但我知道一些工程,做过分布式系统的工作。如果你们需要,我愿意拖地。"Greg回复说,同时懂机器学习和分布式系统的人非常稀缺(他用了一个很正式的词"paucity"),所以Brown应该来。Greg还把Peter Abeel介绍给他,帮助他制定自学课程。

Brown每月与Greg跟进一次,几个月后Greg说有一个项目——需要搭建《星际争霸》(StarCraft)环境。Brown因此加入OpenAI帮助搭建星际争霸环境,这是他的入门项目。他在OpenAI的前九个月基本没有做任何机器学习工作。

当时的OpenAI位于Dandelion巧克力工厂楼上的"巧克力层"(Greg公寓之后的办公室),Elon承诺了10亿美元资金,感觉非常稳固。

GPT-2与GPT-3:从TPU到GPU的关键迁移

Brown在OpenAI工作了一年,去Google Brain工作了一年,然后回来。GPT-3项目从2018年到2019年逐步推进,核心就是规模化(Scaling)。Dario Amodei很早就看到了缩放定律(Scaling Laws)的大趋势——Brown也是缩放定律论文的合著者之一。

这篇论文经受住了时间的考验,我们正在其中梦想成真。看到"投入更多计算就能可靠获得更多智能"这条直线,这是让Brown彻底转向规模化研究的决定性时刻。原始缩放定律论文中那条横跨12个数量级(12 Orders of Magnitude)的直线令他震惊——他从未见过任何事物横跨12个数量级。Danny Hernandez同时发表的论文还展示了算法效率随时间推移使成本大幅下降的趋势,两者叠加意味着未来几年将获得远超当前的智能水平。

在物理学中,缩放定律无处不在——物理学有一个叫做唯象学(Phenomenology)的领域,专门研究世界的各个方面并进行此类拟合,发现幂律分布(Power Law Distributions)无处不在。但在计算机科学相关领域,这是Brown见过的第一个,令人惊奇。当时很多人对此感到愤怒,认为"把钱扔在GPU上就是浪费"。研究人员也不满,觉得这不优雅,只是在蛮力(Brute Force)。Anthropic的口号或许就是"做那个有效但看起来很蠢的事"(Do the Stupid Thing That Works),而缩放定律恰恰就是那个"有效但看起来很蠢"的事。

GPT-3从TPU迁移到GPU的关键驱动因素是:PyTorch在GPU上的软件栈优于TensorFlow在TPU上的软件栈,这解锁了快速迭代——拥有可靠软件栈才能快速实验,构建出完整可用的系统。

创建Anthropic:为使命而聚

在OpenAI,向Dario和Daniela汇报的有两个团队——安全团队和规模化团队。Brown认为这个团队合作得极其出色。两个组织都有的优秀文化包括:一切都在Slack上,100%公开频道,沟通极为透明。这个团队也是最认真对待缩放定律的群体——他们真正相信这将带来变革性影响,人类将在某个时刻将控制权交给变革性AI,希望AI与人类对齐(Aligned),过渡顺利,但也可能不会,风险极高。

这个核心团队最终离开创建了Anthropic。Brown坦言,当时他并不确定这对世界来说是正确的选择。现在回看,这似乎是一个好的决定。

起步的艰难

创建之初,Anthropic看起来毫无成功希望。OpenAI有十亿美元和众多明星,而Anthropic的七位联合创始人在疫情期间试图构建东西,甚至不确定是否会做产品,产品会是什么样。

第一年,Brown的主要工作是两件事:构建训练模型所需的训练基础设施(Training Infrastructure),以及获取训练模型所需的计算资源(Compute)。同时还要处理创业公司的所有杂事——开设Brex账户等等。

七位联合创始人在几个月内,来自OpenAI的约25人陆续加入,形成了一支已经磨合好的团队,帮助他们更快起步。

所有早期加入者都为使命而来

最初加入Anthropic的人都是为了使命而来。他们本可以在其他地方获得更高的声望、更多的金钱、更明确的职业路径——或者就留在OpenAI。这一事实成为Anthropic文化的关键基石:即使公司现在发展到约2000人,政治斗争仍未显著蔓延。因为最初的一百人全都是为使命而来,当有人可能不是为使命而行动时,他们会主动发声指出。

Claude的诞生与演进

Slack中的Claude 1

Anthropic的第一个产品是在ChatGPT之前大约九个月推出的——Slack中的Claude 1机器人版。YC的Slack中就有这个机器人,Tom Blfield把大家都加了进去。

但当时他们不确定是否要将其作为产品发布,不确定这样做对世界是否好事——他们还没有深入思考自己的影响力理论(Theory of Impact)。此外事后看来,即使他们尝试发布,也没有足够的推理服务基础设施(Serving Infrastructure)。因为不确定是否要发布,他们在构建基础设施上犹豫了太久——这是Brown的一个教训。

这是2022年夏天。ChatGPT在2022年秋天发布,之后Anthropic重新推出了API,随后又推出了claude.ai。

长期不被看好的岁月

Brown透露,直到Claude 3.5和编程能力的出现,Anthropic才看起来像一家可能成功的公司。在那之前的整个时期,大约一年前,看起来都不确定Anthropic是否会成为一家成功的公司。

Y Combinator的观察也验证了这一点:2023年全年,OpenAI是创业者的首选模型。转折出现在2024年——Claude 3.5发布,尤其是Sonnet版本开始在YC批次中获取市场份额,从个位数增长到20%至30%,特别是在编程领域。

编程能力的突破:从有意为之到意外惊喜

Anthropic确实投入了更多精力让模型擅长编程,因为他们希望模型擅长编程——这是有意为之的。但看到3.5 Sonnet在编程领域的巨大成功后,他们决定在这个方向上加倍投入。

不过Brown承认,3.5 Sonnet的成功对他们来说也是一个惊喜——没想到影响会这么大。而3.7 Sonnet在智能体编程(Agentic Coding)方面解锁的能力也让他们感到惊讶。他们推进速度非常快,经常不知道结果会怎样。

Claude的编程能力催生了一大批编程智能体创业公司的成功:Replit在10个月内收入达到1亿美元,Cursor也取得了巨大成功,都建立在Sonnet之上。

Brown分享了一个令人惊叹的例子:他的朋友有一个编译好的二进制文件(Compiled Binary),但没有源代码,她想修改这个工具。她问Claude能否反编译,Claude花了10分钟就生成了一个C语言版本——包括反汇编汇编代码、创建变量名等。如果人工来做,可能需要3天时间查阅十六进制表并编写代码。模型甚至记住了所有十六进制表并能逐步推理。

不教模型应考

当被问及为什么YC创始人在编程领域如此偏爱Anthropic模型——远超仅看基准测试(Benchmark)结果所能预测的程度——Brown给出了一个关键解释:

基准测试很容易被操控(Gamed)。其他大型实验室都有专门的团队,其全部工作就是让基准测试分数好看。Anthropic没有这样的团队。他们认为一旦开始教模型应考(Teach to the Test),就会产生奇怪的不良激励。也许可以把这样的团队放在市场部下面然后忽略所有基准测试,但这确实是造成训练-测试不匹配(Train-test Mismatch)的原因之一。

Anthropic使用内部基准测试来指导模型改进,但不发布它们。同时,加速自身工程师的效率也是最高优先级,因此他们大量内部试用(Dogfooding)来确保模型对内部工程师也有帮助。

人格评估的复杂性

人格(Personality)的评估相当复杂——如何判断Claude是否有一颗"善良的心"?Amanda Askell的团队的使命被描述为"做一个好的世界旅行者"——Claude与各种背景的人交谈,每个人在对话后应该感到"我对这次对话感觉良好"。

可解释性(Interpretability)则是一项长期赌注——目前模型还不那么可怕,但在某个时刻它们会变得更加可怕,因此希望有能力在情况变得更激烈时了解模型引擎盖下(Under the Hood)真正发生了什么。

Claude Code:从内部工具到杀手级产品

Claude Code最初是一个内部工具,由Anthropic内部工程师Boris拼凑出来,目的是帮助Anthropic内部工程师提高效率。

在Claude Code之前,Anthropic完全押注于API战略——理念是:外面有那么多创业公司,那么多好点子,凭什么由我们来决定在模型之上构建什么正确产品?外面所有人都会比我们构建出更好的产品,所以把所有精力放在打造最好的API上。

Claude Code的成功让Brown感到惊讶——他们居然能够做出一个作为产品优于市场上其他代理式编程工具的东西。他有一个理论:部分原因来自于一种思维转变——将Claude视为用户

将AI模型作为用户来设计

对于Lanced,用户是教师;对于Grouper,用户主要是纽约的单身人士;对于Claude Code,用户是开发者,但同时也是Claude本身——给Claude正确的工具,让Claude能够有效地帮助;给Claude正确的上下文,让Claude高效工作。

Claude Code团队是最关注"Claude作为用户"的团队,这也合理——Anthropic最理解Claude。但Brown指出,创业公司创始人也可以做到这一点,这可能是创业者为模型作为用户(Models as Users)构建更好工具的富矿。

MCP的成功同理

模型上下文协议(Model Context Protocol, MCP)的成功也是类似的逻辑——它是模型导向(Model-focused)的设计。其他实验室也尝试过工具调用标准,但真正流行起来的标准是Anthropic的MCP。

给在API上构建产品的创业者的建议

当被问及在Anthropic或顶级实验室可能构建竞争产品的担忧时,Brown表示,Claude Code的成功让他感到惊讶,他不完全清楚Anthropic除了"对Claude更多同理心"之外还有什么大优势。他承认一家创业公司完全可以做同样的事情。

Anthropic是最注重开发者、最注重API的实验室。他们想确保拥有最好的平台让人们构建东西,因为整个领域增长极其迅速,Anthropic不可能最快找出所有需要赋能Claude完成的方式——将Claude连接到整个人类商业世界。人类世界是为人类设计的,但需要让模型成为经济中有生产力的成员。

巨大的创业空间

Claude Code解决的是如何让Claude成为一个有用的结对编程者(Pair Programmer)或初级工程师——能力大约相当于L2或L3级别,但在某些方面非常出色(比如反汇编等高级工程师都难以完成的事),却不擅长判断该做什么类型的工作,需要大量引导和上下文。

但这只是商业中非常小的一部分。企业中除了编程之外还有大量工作,是那种"聪明但还缺乏上下文、知道如何编码和使用工具的人"会想要做的。找到指导Claude(或其他任何模型)为企业完成有用任务的方式,这是一个巨大的空间。

计算基础设施:人类史上最大规模的建设

Brown负责Anthropic的全部计算基础设施。他指出了一个引人注目的事实:人类正走在有史以来最大规模基础设施建设的轨道上。这将超过阿波罗计划,超过曼哈顿计划——如果保持当前轨迹,明年就会超过两者。这个轨迹大约是AGI计算支出每年3倍增长(3x per Year),简直疯狂。

3倍年增长率在短期内不会放缓——明年的增长已经锁定,2027年则稍微开放一些。YC内部也感受到了这一点:在所有顶级前沿模型(包括Claude)上都无法获得足够的计算额度,所有人都被计算瓶颈限制,需求就是"给我更多智能,永远不够"。

电力是最大瓶颈

在整体建设方面,Brown认为电力将是最大的瓶颈,尤其是美国的电力。Anthropic希望在美国建设,这是他们最大的政策目标之一——让美国建设更多数据中心、批准更多数据中心、降低建设门槛。

至于能源来源,答案是"全部"——可再生能源和核能都要。Brown表示他希望核能更容易建设。

三大平台策略

Anthropic是唯一使用三家不同制造商芯片的顶级实验室——GPU(NVIDIA)、TPU(Google)和Trainium(AWS)。这样做的缺点是需要将性能工程团队分散到所有平台,这是大量额外工作。但优点是:第一,可以吸收更多总计算容量,因为三者之和远超任何单一平台;第二,可以为不同任务匹配最适合的芯片——某些芯片更适合推理(Inference),某些更适合训练(Training)。

从OpenAI到Anthropic,Brown职业生涯中的关键联系在于:他当年在OpenAI主导了从TPU到GPU的架构迁移,而现在他在更大规模上管理着三大平台的计算基础设施。GPT-3迁移的核心驱动力是PyTorch在GPU上的软件栈优于TensorFlow在TPU上——这解锁了快速迭代。在Anthropic,挑战更大,因为平台更多,写出优秀的底层软件更难。但构建这种软件能力的肌肉记忆——让所有在底层之上构建的人都能有出色体验——是最重要的事情。

给年轻人的建议

如果要对年轻时的自己说些什么,或者对今天想要加入AI革命的20多岁年轻人说些什么——尤其是那些不确定是否应该留在大学、是否还会有工作、世界将如何变化的在校学生——Brown的建议是:

  1. 承担更多风险(Take More Risks):这是明智之举。
  2. 追求让你朋友真正兴奋和印象深刻的事情,或者让更理想化的自己感到自豪的事情。追求内在驱动力(Intrinsic),而非外在凭证(Extrinsic)——不要追逐学位、FAANG工作等,这些在今天就已无关紧要了。