如何让 Claude Code 成为你的人工智能工程团队

摘要
Y Combinator 总裁兼 CEO Gary Tan 在本视频中详细介绍了他开发的 GStack——一个将 Claude Code 转化为 AI 工程团队的开源项目。Gary 从自身数十年的软件工程经验出发,指出我们已进入"智能体时代"(Agent Era),而让智能体真正高效工作的关键在于用团队协作的方式组织它们:赋予角色、建立流程、设置审查。GStack 的核心理念是"薄脚手架、厚技能"(thin harness, fat skills),提供包括 Office Hours(办公时间)、Design Shotgun(设计发散)、Adversarial Review(对抗审查)等在内的 28 种技能,模拟 YC 合伙人与创始人交流的方式帮助创业者打磨产品构想。Gary 现场演示了从零开始构思一个税务文档聚合应用的全过程:通过 Office Hours 进行六个追问来重新框架化产品思路,经过对抗审查自动发现并修复 16 个问题,使用 Design Shotgun 生成多版 UI 设计方案,最终通过 Playwright 浏览器自动化实现端到端 QA。他目前已能同时运行 10–15 个并行 Claude Code 会话,每天合并 10–50 个 PR,代码产出量远超其职业生涯任何时期。GStack 在发布三周内便获得了超过 Ruby on Rails 的 GitHub Star 数,Gary 认为,这是有史以来构建软件最好的时代——构建门槛已经崩塌,唯一的问题是你要构建什么。
正文
从工程师到智能体时代
Gary 自称是工程师出身,在斯坦福大学学习计算机系统工程,之后成为 Palantir 的第 10 号员工,同时兼任工程师、设计师和产品经理。他联合创办了微博客平台 Posterous(后被 Twitter 收购),还亲手构建了 YC 内部社交平台与知识库 Bookface 的第一个版本。他职业生涯中写下了大量代码,但他指出,我们已进入一个全新的软件构建时代——智能体时代(Agent Era)。让智能体做真正工作的方式,与人类一直以来以团队协作完成任务的方式相同:需要角色、流程和审查。
Gary 在 2026 年 1 月开始接触 Claude Code,当时他听到 Andrej Karpathy 和 Boris Cherny 表示自己已经不再手写代码了。他随即完全沉浸其中——在过去两个月里写的代码量超过了 2013 年全年(那也是他最后一次作为工程师拼命工作的年份)。更令人惊叹的是,他本质上用 AI 重建了 Posterous 的全部功能,而当年那需要 2 年时间、1000 万美元资金和 10 名工程师。
开箱即用的模型缺陷与解决思路
然而,Claude Code 开箱即用时会"漫游"(wander)——它不了解你的数据,于是只能猜测。在大规模猜测中,你会得到看似合理却暗中出错的代码(plausible looking code that silently breaks)。Gary 指出,瓶颈不在于模型的智能程度——只要你正确设置模型,它们已经足够聪明,能在你的代码库上做出非凡的工作。问题在于缺乏结构和流程。
传统做法是厚重的脚手架加薄弱的技能,Gary 认为这恰恰相反——脚手架应当极其轻量,技能应当厚重。GStack 就是他对"薄脚手架、厚技能"(thin harness, fat skills)方法的实现。它是一个开源仓库,能将 Claude Code 转化为一支 AI 工程团队,通过一系列技能(Skills)来扮演专业团队成员的角色。
Office Hours:YC 办公时间的蒸馏版
Office Hours 是 GStack 中最核心的技能之一,它直接模拟了 YC 合伙人与创业者在办公时间中的互动方式——这是 16 位 YC 合伙人经过数万小时锤炼和完善的实践,被蒸馏为"10% 浓缩版"。它通过 六个追问(forcing questions)来迫使你重新框架化产品构想,在你开始构建之前就把思路理清。
Gary 以一个实际案例演示了 Office Hours 的工作方式:他想要构建一个税务应用,帮助用户从 Gmail 和金融机构中找出所有 1099 税务表格。Office Hours 的第一个关键问题是:"你有什么最强有力的证据证明有人真的需要这个东西?" 这是一个决定一切的问题——无论你是在考虑做某个项目还是某家创业公司,这都是首先要问自己的。
当 Gary 回答自己确实有多个银行账户、找 1099 表格的过程非常痛苦时,Office Hours 进一步追问:TurboTax 和 H&R Block 已经有 1099 导入功能,Plaid 也连接了银行,为什么这些没有解决你的问题? 这个追问帮助 Gary 意识到,他的构想其实比简单的"文档聚合器"更宏大——用户需要的是一个漏斗(funnel):钩子是帮你找到所有 1099,解决即时痛点;扩展是既然有了文档,就能帮你准备税务,这实际上是为税务师做匹配和线索生成(lead gen)。这是一种经典的楔子策略(wedge strategy),比单纯的文档聚合更有商业价值——1099 聚合可能只能收 2–5 美元,但税务师交易的分成可能高 10 倍。
Gary 特别欣赏 Office Hours 的对话性——它不是一条"轨道式"的固定流程,而更像与模型的对话。如果你只是直接告诉模型"去帮我找 1099",它确实会去做,但不会思考用户是谁、商业模式是什么、谁需要这个、痛点是什么。Office Hours 迫使你思考这些根本问题。Gary 坦言,大约有三分之一的时候,他走完 Office Hours 后会得出"这个想法不靠谱"的结论,而这恰恰是它的价值所在。
浏览器自动化:打破常规的解决方案
在 Office Hours 的推进中,一个创新的解决方案浮现出来:使用 GStack 的浏览器自动化功能,让用户在自己的浏览器中登录,AI 接管导航到税务文档页面并下载 PDF。关键优势是:不需要 Plaid、不需要存储凭证——用户在可见浏览器中观看整个过程发生。这发生在用户自己的真实浏览器上,而不是在云端("云只是别人的电脑")。
Gary 将最终成型的方案总结为:浏览器自动化可以搜索收件箱找到所有需要的 1099 并下载,同时用 LLM 询问用户还需要添加哪些银行门户,然后登录账户下载 PDF,最后给 CPA 发邮件。这种浏览器自动化的方式是一个非常独特、出人意料的问题解决方案,而在一年前甚至三个月前,都不确定是否有人会尝试这样做。
对抗审查:自动化质量保证
GStack 的对抗审查(Adversarial Review)是一个多步骤的审查流程,它会将你的设计文档推到极限。在演示中,它发现了"没有故障处理""没有隐私章节""2FA 交接没有提出解决方案"等一系列问题,并尝试自动修复。Gary 的文档在经过两轮对抗审查后,分数从 6/10 提升到 8/10,自动发现并修复了 16 个问题,仅剩 3 个可稍后处理的问题。这种自动化的审查能力大大减轻了人工审查的负担。
Design Shotgun:AI 视觉头脑风暴
Design Shotgun 是 Gary 最喜欢使用的技能之一,它是一个视觉头脑风暴工具。当你选择了要设计的页面后(如"主清单仪表板"),它会在大约 60 秒内生成多个 AI 版本的设计方案,利用 OpenAI Codex 的图像生成能力。
在演示中,Design Shotgun 生成了三个方向:
- Option A(命令中心风格):类似 Linux 黑客风格的仪表板,展示所有银行和 1099 的状态,Gary 给了 4/5 星
- Option B(友好进度风格):卡片式设计配进度环,更友好的界面,Gary 给了 5/5 星并最终选择
- Option C(分屏视图):过于复杂,未被采用
选定方案后,可以输入反馈或点击重新生成,也可以直接选定并继续推进。这种快速的视觉迭代让设计过程变得极其高效。
Claude Code 与 Codex的角色分工
Gary 用了一个生动的比喻来描述不同模型的角色:Claude 默认使用的 Opus 4.6 就像一个"ADHD CEO"——你愿意和他喝啤酒,他有无数点子,但当事情变得棘手时,你需要召唤你的"自闭症 CTO"——那就是 Codex。这种分工让不同模型各展所长:Opus 4.6 负责创意发散和高层决策,Codex 负责精确执行和深度调试。
浏览器 QA 自动化:突破瓶颈的关键
当 Gary 加速使用 Claude Code 后,一个瓶颈出现了——他发现自己坐在那里做 QA,这是软件开发中最不有趣的部分。Claude 内置的 Chrome MCP(Model Context Protocol)是他用过的最差的软件之一:每次尝试操作都要反复思考,产生巨大的上下文膨胀,经常什么都不做就耗掉 2–3 秒。
Gary 用 GStack 的其他技能创建了 SLQA 和 SL Browse 工具——他在 CLI 层面封装了 Playwright 和 Chromium,构建了一个完整的有头和无头浏览器。现在 Claude Code 和任何智能体都可以直接使用浏览器:截图、复杂交互、点击、填写表单、下载媒体、运行回归测试、更新 CSS、评估 JavaScript 或 CSS 的真实浏览器 Bug。这是真正的魔法时刻。
并行工程:从 Level 7 到 Level 8 的软件工厂
Gary 描述了他追求的"Level 8 软件工厂"愿景。GStack 目前达到了 Level 7——他可以同时运行多个 Conductor 窗口处理不同项目,有时在同一项目上同时运行三四个会话,实现并行 PR、并行分支、并行不同功能,全部可以大致同时落地。他目前运行 10–15 个并行 Claude Code 会话:一个可能在跑新想法的 Office Hours,他有多个拥有数万 Star 的开源项目,大约有 400 个 PR 等待审查,每天完成 10–50 个 PR。
GStack 的完整技能体系
除了 Office Hours、Design Shotgun 和 Adversarial Review,GStack 还包含:
- Auto Plan:如果你不想深入细节,自动完成 CEO、工程、设计和开发者体验审查,使用 Gary 的默认推荐设置
- Review:代码完成后运行,提供员工级(staff-level)Bug 捕获服务,进行全面代码审查
- Ship:PR 准备合入主分支前的最后一步检查
- Plan CEO Review:高层计划审查
Gary 提到,使用 Claude Code 的用户 80–90% 的时间都花在 Office Hours、Plan CEO Review 和 Auto Plan 上。
供应链安全与 GStack 的保护
Gary 对 AI 编码中的供应链攻击(supply chain attacks)表示了极大的担忧,但 GStack 为他提供了安全保障。他不使用传统的待办事项列表——每当有想法、收到用户的 Bug 报告或在 X 上看到有人抱怨 GStack 或 GBrain 的问题,他只需点击 Conductor 中的加号图标,创建一个新的工作树,运行 Office Hours、CEO Review、End Review、Adversarial Review,然后走正常流程。当 PR 准备好时,它就合入。
开启构建的新纪元
Gary 最后总结道:GStack 现已可用,只需访问 github.com/gritan/GStack。当你运行 Office Hours 时,你得到的是 YC 与创始人真实思考过程的版本——类似的追问和重新框架化,在你真正见到我们之前就已经发生。这是有史以来构建软件最不可思议的时代——构建的门槛已经崩塌,唯一剩下的问题是:你要构建什么?是时候全力出发了,去做出人们想要的东西(Make something people want)。