Tokenmaxxing:顶尖构建者如何用AI完成400名工程师的工作

cover

摘要

本文是Light Cone特别节目的完整记录,聚焦Y Combinator总裁Gary Tan如何在离开编码13年后,利用AI工具重新成为构建者,并在数月内产出数十万行代码、打造超过10万GitHub星标的开源项目。Gary的核心方法论是"Token Maxing"——最大化token使用量来获取最佳输出。文章详细追踪了三个关键项目的演进:Gary's List(AI驱动的公民新闻平台)最初花费400万美元和6-7人团队花1.5年构建,第二次重写花费10万美元和2人花3个月,第三次用Claude Code Max账户花200美元和5天即完成;GStack(Claude Code技能框架)从个人笔记演化为包含CEO、设计师、开发者体验、Plan-Review等多角色的完整AI开发流水线,并集成了Codex作为"200智商CTO";GBrain/OpenClaw(个人AI平台)则体现了"Thin Harness, Fat Skills"(薄线束,厚技能)哲学——将确定性操作留在代码中,将所有判断和上下文放在Markdown中教LLM写代码。Gary还深入讨论了从"写调用LLM的代码"到"写Markdown教LLM写代码"的范式转变、80-90%测试覆盖率的重要性、以及"个人AI"革命——每个人都需要拥有自己的提示词和数据,否则将处于某个PM或开发者的"API之下"。文章的核心信息是:使用OpenClaw就像开一辆法拉利——令人兴奋,但你也必须是自己的修车工;我们正处于Homebrew Computer Club时刻,所有有品味和技术理解力的人都可以借由token maxing获得"翅膀"。

正文

重新成为构建者:13年后的回归

Gary Tan在离开编码13年后,突然实现了约400倍的工作量提升。他最后的编码时期是2013年,当时大约三分之二的时间在写代码。

这一切始于Gary's List——一个公民参与平台。Gary意识到他想把相信他信念的人聚集在一起,特别是为加州。他成立了一个501(c)(4)组织(后来还有C(3)和PAC),这是政治组织常见的架构。他从旧金山政治中学到的是:把人聚集在一起是极其强大的力量,这就是大众社会运动。

Gary的核心驱动力来自亲身经历:在旧金山公立学校中,七年级或八年级的学生竟然无法上代数课。Gary本人在东湾公立学校上学时如果无法修代数,就不可能在斯坦福学工程、写代码或做任何这些事。这让他感到痛心——10到13岁的孩子想学代数却被官僚或权力中人说"不"。

Posterous的三次构建:成本革命

Gary's List的底层博客平台实际上是Gary的第一家YC创业公司Posterous的第三次重写:

第一次(2008年):Posterous——"极简邮件博客",增长至互联网前200的网站,被Twitter以约2000万美元收购。花费约400万美元、6-7人、约1.5年。

第二次:Post Haven——当Twitter收购Posterous后关闭了它,Gary没有钱从Twitter买回(需要几百万美元),所以重新写了一遍。花费约10万美元、2人(Gary和联合创始人Brett Gibson,现任Initialized资本负责人)、约3个月。

第三次(2026年1月):花费约200美元(Claude Code Max账户费用)和5天,就完成了全功能博客平台。而且在此基础上还加了完整的RAG(检索增强生成)、完整的Agent检索——能够递归爬取互联网、读取他发过的每条推文、对任何主题进行深度研究。

Gary's List:AI驱动的公民新闻

Gary's List不仅是博客平台,它实际上完成了高质量调查记者的工作——不仅是记者用来发布文章的工具。

通过相当于5到10美元的Opus调用,它完成了人类需要数天才能完成的工作:痛苦地翻阅数十篇文章、阅读整本关于特定主题的书籍、做注释。Gary借鉴了Casetext创始人Jake Heller的理念——你需要思考一个拥有上下文的人类会做什么:它会去图书馆吗?会找什么书?在网上搜索什么?

现在你不需要只靠人力——你可以获取Perplexity的API做深度研究、X的API做深度研究、Grok的API在X上做研究(Grok API在这方面非常好),然后抓取所有上下文。

这回到了Gary的"煮沸海洋" (Boil the Ocean) 哲学——特别是现在构建Agent软件时,你不需要满足于人类写代码时的局限。如果你绝对煮沸海洋——什么是完全完成主义者会做的?如果人类做这项研究需要一个月,你只需要多"电击岩石"(zap the rocks harder),多付一点钱,你可能在进行token maxing,但你应该token max。基本上,如果有增量工作能让某个东西更完整、更出色——在写作的情况下,我们希望它更接近现实。我们不满足于一个来源,当我们可以获得20个来源时,我们会交叉引用,发现13个来源说A、7个来源反对,然后把所有这些上下文喂入核心提示词,做出比人类点击链接读标题更好的决策。

Token maxing不仅限于生成文章或写代码——每一个我们称之为知识工作 (Knowledge Work) 的领域都可以被token max。这并不意味着要淘汰人,而是人仍然需要提供能动性 (Agency)——Gary是那个在乎代数的人,他是那个坐在这里关心这件事的人。

GStack:从个人笔记到AI开发框架

GStack的诞生完全是意外。Gary只是意识到自己在Claude Code中反复做同样的事情,于是在Apple Notes中写下了所有反复使用的指令。

ASCII艺术图的发现:Gary喜欢让Claude画ASCII艺术图。他发现,如果先让Claude画一个所有数据流、输入输出、用户流程、错误信息的ASCII图——数据流、状态机 (State Machine)、依赖图、处理管道、决策树——Claude会加载所有上下文,然后更完整地完成工作。它更好地"煮沸了海洋",并分解为架构评审、代码质量、测试等多个部分。

测试覆盖率的教训:Gary在构建Gary's List时学到了一个关键教训——手动写代码时他总是做最少的测试,因为测试不好玩。当他开始"氛围编码" (Vibe Coding) 时,遇到了所有人都会遇到的问题:这是草率代码,80%的情况下能用,但一有用户碰就开始崩溃。他意识到可以让AI达到100%测试覆盖率。后来他学到80-90%才是目前的最佳实践。

Plan-Review:这就是GStack的第一个版本。Gary还不知道"技能" (Skills) 的存在时就在用了。他发布了这个方法,20万人看到了它。然后他做了一个更扩展的版本叫"MEGA Plan",后来改名为"CEO Plan"。

元提示 (Metaprompting):Gary在这里使用了元提示——他拿了之前的review plan,然后说"假设Brian Chesky坐在你旁边"。Brian Chesky有一个关于"10星体验"的经典方法:所有人用星级来思考酒店——2星、3星、4星、5星,但他会问"6星是什么?7星是什么?8星是什么?"这是Gary最喜欢的产品和设计思维练习。现在你可以每次都做。

CEO Plan中有两个特别出色的部分:一是"10x检查"——什么更宏大、能以仅2倍的努力交付10倍的价值;二是从潜在空间 (Latent Space) 出发帮助模型更好地可视化。

从技能到框架:Gary用这两个技能(Office Hours/CEO + Plan Review)太多了,以至于Conductor实例严重积压。他展示了真实的设置:在48小时内提交了13个PR。每当有新想法,他就进来使用CEO技能做计划,用技能确保充分测试,全部在Plan模式下完成,然后点击批准,Claude就会去执行。他这样做太多了,结果15个不同功能排队等他手动测试。

QA自动化与Playwright

Gary厌倦了手动测试,尝试用Claude Code的Chrome MCP,但每轮2-3秒太慢了。他听说微软发布了Playwright(一个替代测试框架),虽然回顾起来还有其他Agent工具可用,但Claude Code的好处就是太容易开始了——他直接说"我受够Chrome MCP了,太慢了,让我们包一下微软的Playwright",然后按了回车。

现在GStack中的QA就是"Browse"——一个拥有70个命令的长期运行HTTP守护进程CLI。QA的提示词说"查看上下文,我们在这个分支上做了什么?如果有UI或任何数据变更,去用浏览器测试那个东西"。这就像有一个黑盒浏览器。Gary第一次让它工作时惊呆了——"迷你AGI已经在这里了"。真正的AGI是他不需要在场,但作为构建者,他自私地希望机器永远不要完全想明白,因为那样人类就真的重要了——懂品味、设计、产品反馈和真实客户的工程师,只要我们做到这些,我们就一直有翅膀。

Claude Code与Codex:ADHD CEO与200智商CTO

Gary从一个YC校友活动中学到了一个关键区别:

Claude Code是ADHD CEO的理想工具——快速、灵活、善于执行。但偶尔Claude Code会胡说八道。Claude模型非常好,但不是最聪明的。

Codex是200智商、几乎不说话的CTO——当你有一个更疯狂的问题时,你需要它。Gary因此在GStack中添加了/codex技能——它拿你的计划或已实现的代码库,在命令行中运行Codex,提示词是"找出所有问题和bug",然后报告回Claude Code,你和Claude Code一起处理反馈。反过来,如果你用Codex作为主编码Agent,你可以输入/claude让Claude短暂地当CEO。

GStack的完整流水线:Office Hours → CEO Review → Design(如果有UI)→ Developer Review(GStack和GBrain几乎都需要)→ Review → Codex。计划完成后,所有问题都处理过了,GStack非常依赖"ask user question"——这是人类(氛围编码者、操作者、Agent工程师)必须提供的对正在构建什么的理解,没有替代品。

Gary表示他绝不会完全退出循环,他只想让机器做他不想做的事。

Thin Harness, Fat Skills:薄线束与厚技能

这个概念来自YC合伙人Pete Kumin。Gary他们一直在构建内部Agent,反复称之为"线束" (Harness)。在整天使用Claude Code后,他们意识到为什么要反复重写线束——应该把真正出色的东西用作线束。

线束是核心循环——接收用户输入、传给LLM、执行LLM的输出(包括工具调用等)。为什么要自己构建?应该把时间花在思考Markdown应该包含什么上。

思考Markdown的方式:假设你是一个活动策划人,在筹备婚礼,试图写下如何再办一场婚礼的清单——你会用纯英语写什么来教下一个必须做这件事的人?所有这些都应该在Markdown中。

而所有应该是确定性的东西——比如婚礼策划人可能要打20个场地电话——你不会用Markdown做那个,你会调用Twilio。当前Agent工程 (Agentic Engineering) 的大部分困难在于,人们试图把应该在Markdown中的东西放在代码中,然后它失败了,因为代码是脆弱的——它不理解特殊情况,它字面上不知道你想要什么或你是谁,它只是在图灵完备循环中执行确定性的零和一。但现在我们有LLM——它们有潜在空间,知道你是谁,知道你的动机,能处理通用情况。

所以作为工程师,现在的魔法在于:多少放在LLM领域,多少放在代码领域。再加上80-90%测试覆盖率——如果没有测试就把用户放进去,那比人类写的代码还差10倍。

GBrain与OpenClaw:个人AI的未来

GBrain的起源是Gary终于去试用OpenClaw。大约在Karpathy发表关于"知识LLM Wiki"的帖子时,Gary意识到他有一个仓库全是Markdown——所有上下文应该放进那个Markdown。但后来他发现OpenClaw只是在用GP(GPT),而GP不是那么好——它在浪费上下文,加载了太多不必要的东西。

Gary于是在Conductor中快速启动,把GStack构建进去。他发现可以利用Gary's List中已经学到的技术——向量嵌入 (Vector Embedding)、混合RRF、分块 (Chunking)——从自己已有的代码库中提取这些能力。他想要用PostgreSQL加PGVector做一个完整的RAG系统用于OpenClaw。然后一个东西连着另一个,10个窗口开着,GBrain就在进行中。

代码行数之争与400倍效率

Gary在网上因为谈论代码行数惹了很多麻烦。但他仍然相信这个指标。他最初说自己以2013年100倍的速度编码,后来用逻辑代码行 (Logical Lines of Code) 标准化工具做了精确计算——结果实际上不是100倍,而是400倍。

关键发现:
- Gary在2013年写的代码被标准化工具删减了70%——意味着他当时写了大量水分代码。
- Claude Code生成的代码虽然也有些删减,但幅度小得多。
- 文献表明,专业软件工程师平均每天产出30-50行经过测试的、可生产的代码。Gary当时大约14行(因为兼职)。
- 除非你明确指示Claude Code填充代码行数,否则它不会像拿工资的人类那样优化代码行数——它可能构建错误的东西,但不是在凑行数。

这正是400倍数据的来源。Gary后来发布了一篇博客文章详细解释。他认为这对技术人员来说非常重要——因为它实际上提高了你能做的事情的上限。所有攻击他代码行数的人,恰恰是最可能从token maxing中获益的人——只要他们有品味和技术理解力,所需的就是相信并打开Claude Code试一试。

法拉利比喻与Homebrew Computer Club时刻

使用OpenClaw就像驾驶法拉利——令人兴奋、不可思议,它能完成你从未想过机器能做到的事,而且速度极快。但它也是一辆法拉利,你最好是个修车工。它是一辆在你最需要的时候可能在路边抛锚的法拉利,你需要拿出扳手,掀开引擎盖,自己修理。

这是一个非常激动人心的计算机科学和技术时代——就像家酿计算机俱乐部 (Homebrew Computer Club) 时刻。Steve Jobs和Steve Wozniak创造的Apple I是一块面包板,放在用钉子和胶带锤在一起的木箱里。如果你想要个人电脑,那就是你必须做的。我们现在就在那里——相对聪明的技术人员需要花两三个小时和500到1000美元的token和云费用才能让这样的东西运行起来。但一旦你做到了,就像我们处于套件法拉利 (Kit Car Ferrari) 阶段——然后你可以驾驶,去任何地方,想对天大喊"我有一辆法拉利"。

个人AI革命:控制你的工具

Gary做出了一个关键预测:明年这个时候,地球上的每个人都将拥有自己的个人AI。我们可能生活在一个拥有自己AI的世界——自己的数据、自己的集成、看到正在发生什么、写自己的提示词、控制我们看到什么。或者这是企业控制的——你访问一个主机,就像你的Facebook信息流,你不知道谁写了那个算法、它有利于谁、背后是什么商业模式。

最强大的理念——个人电脑革命——是一份礼物,我们即将经历完全相同的转变:个人AI。这将是一个选择——人们必须弄清楚:我愿意写自己的提示词吗?Gary提到Pete Kimmich的教训——除非你有自己的提示词并且能为自己写,否则你就处于某个不理解你、不理解你的需求、不理解你独特关注点的PM或开发者的API之下。

这是决定性问题:你将控制自己的工具,还是你的工具控制你?

Token Maxing作为创业者的"房租"

Gary将token maxing比作旧金山的房租——YC创始人经常说"我不想搬去旧金山因为太贵了",但实际上"不住在那里才更贵"。早期在YC批次中,一套公寓每月几千美元看起来荒谬,但你应该付,如果有什么不同的话,你应该付更多——不只是住在旧金山,而是住在Dog Patch这样的社区,创造那种偶然性。

Token maxing对创始人来说就是那种东西——不是立即明显你应该花这么多,但它实际上就像房租。你应该尽可能多花,从中获得最大的效用,而不是把它当作办公桌那样可以省的东西。当涉及到使用模型和token花费时,你可能应该大力推进。

YC的一个核心格言是:如何找到好的创业想法——生活在未来,构建缺失的东西 (Live in the Future, Build What's Missing)。Token maxing是这个原则的深刻版本——你只需要让你的大脑承诺,花500美元在一天内的token上,并说只要我正在构建对我真正有价值的东西、构建正确的东西,我就要这样做。

时间亿万富翁:借机器的时间

当被问及作为YC CEO同时构建这些项目是否反而帮助了他时——因为时间如此稀缺,他不得不用会议之间的零碎分钟来弄清楚如何用AI写数十万行代码——Gary回答:

他羡慕"时间亿万富翁" (Time Billionaires)。他看自己的孩子——这些孩子现在就是时间亿万富翁。你在创业学校也会遇到这样的人。你什么都可以学,这太好了。

Gary的个人哲学是:他脑子里一直在疯狂赶时间。他需要活十亿辈子才能在这个身体里做他想做的事,他需要每一刻都有价值。而如果你能token max——你可以购买数百万年的机器意识 (Machine Consciousness)。现在你可以成为时间亿万富翁——不是你自己的时间,而是机器为你工作的时间,以及他关心的人为他关心的事业工作的时间。

Gary坦承这并非什么宏大计划的一部分。但潜意识里,从做Light Cone节目、谈论这些东西、以及坐在Boris Chernyy旁边的那一刻——Boris说"我们团队不写一行代码"——Gary意识到"实际上我也能做"。而看这个节目的人和Gary没有不同。他们从同一个地方开始。如果你打开一个提示词,我们有相同的提示词、相同的MacBook Pro。你、我或我们任何人之间,没有任何东西阻止我们利用潜在的数百万年的token来服务人类。

你可以通过借用机器的时间来拥有无限时间。 这是一个值得传播的想法——在这个时代活着,何其有幸。