Tokenmaxxing：顶尖构建者如何用AI完成400名工程师的工作

cover

摘要

本文是Light Cone特别节目的完整记录，聚焦Y Combinator总裁Gary Tan如何在离开编码13年后，利用AI工具重新成为构建者，并在数月内产出数十万行代码、打造超过10万GitHub星标的开源项目。Gary的核心方法论是"Token Maxing"——最大化token使用量来获取最佳输出。文章详细追踪了三个关键项目的演进：Gary's List（AI驱动的公民新闻平台）最初花费400万美元和6-7人团队花1.5年构建，第二次重写花费10万美元和2人花3个月，第三次用Claude Code Max账户花200美元和5天即完成；GStack（Claude Code技能框架）从个人笔记演化为包含CEO、设计师、开发者体验、Plan-Review等多角色的完整AI开发流水线，并集成了Codex作为"200智商CTO"；GBrain/OpenClaw（个人AI平台）则体现了"Thin Harness, Fat Skills"（薄线束，厚技能）哲学——将确定性操作留在代码中，将所有判断和上下文放在Markdown中教LLM写代码。Gary还深入讨论了从"写调用LLM的代码"到"写Markdown教LLM写代码"的范式转变、80-90%测试覆盖率的重要性、以及"个人AI"革命——每个人都需要拥有自己的提示词和数据，否则将处于某个PM或开发者的"API之下"。文章的核心信息是：使用OpenClaw就像开一辆法拉利——令人兴奋，但你也必须是自己的修车工；我们正处于Homebrew Computer Club时刻，所有有品味和技术理解力的人都可以借由token maxing获得"翅膀"。

正文

重新成为构建者：13年后的回归

Gary Tan在离开编码13年后，突然实现了约400倍的工作量提升。他最后的编码时期是2013年，当时大约三分之二的时间在写代码。

这一切始于Gary's List——一个公民参与平台。Gary意识到他想把相信他信念的人聚集在一起，特别是为加州。他成立了一个501(c)(4)组织（后来还有C(3)和PAC），这是政治组织常见的架构。他从旧金山政治中学到的是：把人聚集在一起是极其强大的力量，这就是大众社会运动。

Gary的核心驱动力来自亲身经历：在旧金山公立学校中，七年级或八年级的学生竟然无法上代数课。Gary本人在东湾公立学校上学时如果无法修代数，就不可能在斯坦福学工程、写代码或做任何这些事。这让他感到痛心——10到13岁的孩子想学代数却被官僚或权力中人说"不"。

Posterous的三次构建：成本革命

Gary's List的底层博客平台实际上是Gary的第一家YC创业公司Posterous的第三次重写：

第一次（2008年）：Posterous——"极简邮件博客"，增长至互联网前200的网站，被Twitter以约2000万美元收购。花费约400万美元、6-7人、约1.5年。

第二次：Post Haven——当Twitter收购Posterous后关闭了它，Gary没有钱从Twitter买回（需要几百万美元），所以重新写了一遍。花费约10万美元、2人（Gary和联合创始人Brett Gibson，现任Initialized资本负责人）、约3个月。

第三次（2026年1月）：花费约200美元（Claude Code Max账户费用）和5天，就完成了全功能博客平台。而且在此基础上还加了完整的RAG（检索增强生成）、完整的Agent检索——能够递归爬取互联网、读取他发过的每条推文、对任何主题进行深度研究。

Gary's List：AI驱动的公民新闻

Gary's List不仅是博客平台，它实际上完成了高质量调查记者的工作——不仅是记者用来发布文章的工具。

通过相当于5到10美元的Opus调用，它完成了人类需要数天才能完成的工作：痛苦地翻阅数十篇文章、阅读整本关于特定主题的书籍、做注释。Gary借鉴了Casetext创始人Jake Heller的理念——你需要思考一个拥有上下文的人类会做什么：它会去图书馆吗？会找什么书？在网上搜索什么？

现在你不需要只靠人力——你可以获取Perplexity的API做深度研究、X的API做深度研究、Grok的API在X上做研究（Grok API在这方面非常好），然后抓取所有上下文。

这回到了Gary的"煮沸海洋" (Boil the Ocean) 哲学——特别是现在构建Agent软件时，你不需要满足于人类写代码时的局限。如果你绝对煮沸海洋——什么是完全完成主义者会做的？如果人类做这项研究需要一个月，你只需要多"电击岩石"（zap the rocks harder），多付一点钱，你可能在进行token maxing，但你应该token max。基本上，如果有增量工作能让某个东西更完整、更出色——在写作的情况下，我们希望它更接近现实。我们不满足于一个来源，当我们可以获得20个来源时，我们会交叉引用，发现13个来源说A、7个来源反对，然后把所有这些上下文喂入核心提示词，做出比人类点击链接读标题更好的决策。

Token maxing不仅限于生成文章或写代码——每一个我们称之为知识工作 (Knowledge Work) 的领域都可以被token max。这并不意味着要淘汰人，而是人仍然需要提供能动性 (Agency)——Gary是那个在乎代数的人，他是那个坐在这里关心这件事的人。

GStack：从个人笔记到AI开发框架

GStack的诞生完全是意外。Gary只是意识到自己在Claude Code中反复做同样的事情，于是在Apple Notes中写下了所有反复使用的指令。

ASCII艺术图的发现：Gary喜欢让Claude画ASCII艺术图。他发现，如果先让Claude画一个所有数据流、输入输出、用户流程、错误信息的ASCII图——数据流、状态机 (State Machine)、依赖图、处理管道、决策树——Claude会加载所有上下文，然后更完整地完成工作。它更好地"煮沸了海洋"，并分解为架构评审、代码质量、测试等多个部分。

测试覆盖率的教训：Gary在构建Gary's List时学到了一个关键教训——手动写代码时他总是做最少的测试，因为测试不好玩。当他开始"氛围编码" (Vibe Coding) 时，遇到了所有人都会遇到的问题：这是草率代码，80%的情况下能用，但一有用户碰就开始崩溃。他意识到可以让AI达到100%测试覆盖率。后来他学到80-90%才是目前的最佳实践。

Plan-Review：这就是GStack的第一个版本。Gary还不知道"技能" (Skills) 的存在时就在用了。他发布了这个方法，20万人看到了它。然后他做了一个更扩展的版本叫"MEGA Plan"，后来改名为"CEO Plan"。

元提示 (Metaprompting)：Gary在这里使用了元提示——他拿了之前的review plan，然后说"假设Brian Chesky坐在你旁边"。Brian Chesky有一个关于"10星体验"的经典方法：所有人用星级来思考酒店——2星、3星、4星、5星，但他会问"6星是什么？7星是什么？8星是什么？"这是Gary最喜欢的产品和设计思维练习。现在你可以每次都做。

CEO Plan中有两个特别出色的部分：一是"10x检查"——什么更宏大、能以仅2倍的努力交付10倍的价值；二是从潜在空间 (Latent Space) 出发帮助模型更好地可视化。

从技能到框架：Gary用这两个技能（Office Hours/CEO + Plan Review）太多了，以至于Conductor实例严重积压。他展示了真实的设置：在48小时内提交了13个PR。每当有新想法，他就进来使用CEO技能做计划，用技能确保充分测试，全部在Plan模式下完成，然后点击批准，Claude就会去执行。他这样做太多了，结果15个不同功能排队等他手动测试。

QA自动化与Playwright

Gary厌倦了手动测试，尝试用Claude Code的Chrome MCP，但每轮2-3秒太慢了。他听说微软发布了Playwright（一个替代测试框架），虽然回顾起来还有其他Agent工具可用，但Claude Code的好处就是太容易开始了——他直接说"我受够Chrome MCP了，太慢了，让我们包一下微软的Playwright"，然后按了回车。

现在GStack中的QA就是"Browse"——一个拥有70个命令的长期运行HTTP守护进程CLI。QA的提示词说"查看上下文，我们在这个分支上做了什么？如果有UI或任何数据变更，去用浏览器测试那个东西"。这就像有一个黑盒浏览器。Gary第一次让它工作时惊呆了——"迷你AGI已经在这里了"。真正的AGI是他不需要在场，但作为构建者，他自私地希望机器永远不要完全想明白，因为那样人类就真的重要了——懂品味、设计、产品反馈和真实客户的工程师，只要我们做到这些，我们就一直有翅膀。

Claude Code与Codex：ADHD CEO与200智商CTO

Gary从一个YC校友活动中学到了一个关键区别：

Claude Code是ADHD CEO的理想工具——快速、灵活、善于执行。但偶尔Claude Code会胡说八道。Claude模型非常好，但不是最聪明的。

Codex是200智商、几乎不说话的CTO——当你有一个更疯狂的问题时，你需要它。Gary因此在GStack中添加了/codex技能——它拿你的计划或已实现的代码库，在命令行中运行Codex，提示词是"找出所有问题和bug"，然后报告回Claude Code，你和Claude Code一起处理反馈。反过来，如果你用Codex作为主编码Agent，你可以输入/claude让Claude短暂地当CEO。

GStack的完整流水线：Office Hours → CEO Review → Design（如果有UI）→ Developer Review（GStack和GBrain几乎都需要）→ Review → Codex。计划完成后，所有问题都处理过了，GStack非常依赖"ask user question"——这是人类（氛围编码者、操作者、Agent工程师）必须提供的对正在构建什么的理解，没有替代品。

Gary表示他绝不会完全退出循环，他只想让机器做他不想做的事。

Thin Harness, Fat Skills：薄线束与厚技能

这个概念来自YC合伙人Pete Kumin。Gary他们一直在构建内部Agent，反复称之为"线束" (Harness)。在整天使用Claude Code后，他们意识到为什么要反复重写线束——应该把真正出色的东西用作线束。

线束是核心循环——接收用户输入、传给LLM、执行LLM的输出（包括工具调用等）。为什么要自己构建？应该把时间花在思考Markdown应该包含什么上。

思考Markdown的方式：假设你是一个活动策划人，在筹备婚礼，试图写下如何再办一场婚礼的清单——你会用纯英语写什么来教下一个必须做这件事的人？所有这些都应该在Markdown中。

而所有应该是确定性的东西——比如婚礼策划人可能要打20个场地电话——你不会用Markdown做那个，你会调用Twilio。当前Agent工程 (Agentic Engineering) 的大部分困难在于，人们试图把应该在Markdown中的东西放在代码中，然后它失败了，因为代码是脆弱的——它不理解特殊情况，它字面上不知道你想要什么或你是谁，它只是在图灵完备循环中执行确定性的零和一。但现在我们有LLM——它们有潜在空间，知道你是谁，知道你的动机，能处理通用情况。

所以作为工程师，现在的魔法在于：多少放在LLM领域，多少放在代码领域。再加上80-90%测试覆盖率——如果没有测试就把用户放进去，那比人类写的代码还差10倍。

GBrain与OpenClaw：个人AI的未来

GBrain的起源是Gary终于去试用OpenClaw。大约在Karpathy发表关于"知识LLM Wiki"的帖子时，Gary意识到他有一个仓库全是Markdown——所有上下文应该放进那个Markdown。但后来他发现OpenClaw只是在用GP（GPT），而GP不是那么好——它在浪费上下文，加载了太多不必要的东西。

Gary于是在Conductor中快速启动，把GStack构建进去。他发现可以利用Gary's List中已经学到的技术——向量嵌入 (Vector Embedding)、混合RRF、分块 (Chunking)——从自己已有的代码库中提取这些能力。他想要用PostgreSQL加PGVector做一个完整的RAG系统用于OpenClaw。然后一个东西连着另一个，10个窗口开着，GBrain就在进行中。

代码行数之争与400倍效率

Gary在网上因为谈论代码行数惹了很多麻烦。但他仍然相信这个指标。他最初说自己以2013年100倍的速度编码，后来用逻辑代码行 (Logical Lines of Code) 标准化工具做了精确计算——结果实际上不是100倍，而是400倍。

关键发现：
- Gary在2013年写的代码被标准化工具删减了70%——意味着他当时写了大量水分代码。
- Claude Code生成的代码虽然也有些删减，但幅度小得多。
- 文献表明，专业软件工程师平均每天产出30-50行经过测试的、可生产的代码。Gary当时大约14行（因为兼职）。
- 除非你明确指示Claude Code填充代码行数，否则它不会像拿工资的人类那样优化代码行数——它可能构建错误的东西，但不是在凑行数。

这正是400倍数据的来源。Gary后来发布了一篇博客文章详细解释。他认为这对技术人员来说非常重要——因为它实际上提高了你能做的事情的上限。所有攻击他代码行数的人，恰恰是最可能从token maxing中获益的人——只要他们有品味和技术理解力，所需的就是相信并打开Claude Code试一试。

法拉利比喻与Homebrew Computer Club时刻

使用OpenClaw就像驾驶法拉利——令人兴奋、不可思议，它能完成你从未想过机器能做到的事，而且速度极快。但它也是一辆法拉利，你最好是个修车工。它是一辆在你最需要的时候可能在路边抛锚的法拉利，你需要拿出扳手，掀开引擎盖，自己修理。

这是一个非常激动人心的计算机科学和技术时代——就像家酿计算机俱乐部 (Homebrew Computer Club) 时刻。Steve Jobs和Steve Wozniak创造的Apple I是一块面包板，放在用钉子和胶带锤在一起的木箱里。如果你想要个人电脑，那就是你必须做的。我们现在就在那里——相对聪明的技术人员需要花两三个小时和500到1000美元的token和云费用才能让这样的东西运行起来。但一旦你做到了，就像我们处于套件法拉利 (Kit Car Ferrari) 阶段——然后你可以驾驶，去任何地方，想对天大喊"我有一辆法拉利"。

个人AI革命：控制你的工具

Gary做出了一个关键预测：明年这个时候，地球上的每个人都将拥有自己的个人AI。我们可能生活在一个拥有自己AI的世界——自己的数据、自己的集成、看到正在发生什么、写自己的提示词、控制我们看到什么。或者这是企业控制的——你访问一个主机，就像你的Facebook信息流，你不知道谁写了那个算法、它有利于谁、背后是什么商业模式。

最强大的理念——个人电脑革命——是一份礼物，我们即将经历完全相同的转变：个人AI。这将是一个选择——人们必须弄清楚：我愿意写自己的提示词吗？Gary提到Pete Kimmich的教训——除非你有自己的提示词并且能为自己写，否则你就处于某个不理解你、不理解你的需求、不理解你独特关注点的PM或开发者的API之下。

这是决定性问题：你将控制自己的工具，还是你的工具控制你？

Token Maxing作为创业者的"房租"

Gary将token maxing比作旧金山的房租——YC创始人经常说"我不想搬去旧金山因为太贵了"，但实际上"不住在那里才更贵"。早期在YC批次中，一套公寓每月几千美元看起来荒谬，但你应该付，如果有什么不同的话，你应该付更多——不只是住在旧金山，而是住在Dog Patch这样的社区，创造那种偶然性。

Token maxing对创始人来说就是那种东西——不是立即明显你应该花这么多，但它实际上就像房租。你应该尽可能多花，从中获得最大的效用，而不是把它当作办公桌那样可以省的东西。当涉及到使用模型和token花费时，你可能应该大力推进。

YC的一个核心格言是：如何找到好的创业想法——生活在未来，构建缺失的东西 (Live in the Future, Build What's Missing)。Token maxing是这个原则的深刻版本——你只需要让你的大脑承诺，花500美元在一天内的token上，并说只要我正在构建对我真正有价值的东西、构建正确的东西，我就要这样做。

时间亿万富翁：借机器的时间

当被问及作为YC CEO同时构建这些项目是否反而帮助了他时——因为时间如此稀缺，他不得不用会议之间的零碎分钟来弄清楚如何用AI写数十万行代码——Gary回答：

他羡慕"时间亿万富翁" (Time Billionaires)。他看自己的孩子——这些孩子现在就是时间亿万富翁。你在创业学校也会遇到这样的人。你什么都可以学，这太好了。

Gary的个人哲学是：他脑子里一直在疯狂赶时间。他需要活十亿辈子才能在这个身体里做他想做的事，他需要每一刻都有价值。而如果你能token max——你可以购买数百万年的机器意识 (Machine Consciousness)。现在你可以成为时间亿万富翁——不是你自己的时间，而是机器为你工作的时间，以及他关心的人为他关心的事业工作的时间。

Gary坦承这并非什么宏大计划的一部分。但潜意识里，从做Light Cone节目、谈论这些东西、以及坐在Boris Chernyy旁边的那一刻——Boris说"我们团队不写一行代码"——Gary意识到"实际上我也能做"。而看这个节目的人和Gary没有不同。他们从同一个地方开始。如果你打开一个提示词，我们有相同的提示词、相同的MacBook Pro。你、我或我们任何人之间，没有任何东西阻止我们利用潜在的数百万年的token来服务人类。

你可以通过借用机器的时间来拥有无限时间。 这是一个值得传播的想法——在这个时代活着，何其有幸。