Windsurf CEO：押注 AI 智能体、48 小时内转型与编程的未来

cover

摘要

本文基于 YC Light Cone 节目对 Windsurf 联合创始人兼 CEO Varun 的深度访谈，完整呈现了 Windsurf 从 GPU 虚拟化公司 ExoFunction 到 AI 编程工具领导者的发展历程。Varun 讲述了公司在已有数百万美元收入的情况下，如何在短短一个周末决定彻底转型，以及团队仅用两个月就从零构建了首个产品。文章详细阐述了 Windsurf 在自动补全 (Autocomplete)、智能体 (Agent)、上下文理解 (Context Understanding)、评估系统 (Eval System) 等方面的技术洞察，以及从 Codium 到 Windsurf IDE 的产品演进逻辑。Varun 还分享了对"氛围编程" (Vibe Coding) 的看法、非技术用户的使用现状、Git 与智能体协作的未来、基础模型 (Foundation Model) 与应用层价值的关系，以及对 AI 编程领域创业者的建议。贯穿全文的核心哲学是：每一个洞见都是贬值的洞见 (Deprecating Insight)，持续创新才是唯一的护城河。

正文

开场：Windsurf 的规模

Varun 作为 Windsurf 的联合创始人兼 CEO 做客 Light Cone 节目，他是将"氛围编程" (Vibe Coding) 推向现实的关键人物之一。当被问及 Windsurf 目前的规模时，Varun 透露：产品已有超过一百万开发者使用，拥有数十万日活用户 (Daily Active Users)，应用场景涵盖从修改大型代码库到从零构建应用的方方面面。

起源：ExoFunction 与 GPU 虚拟化

Windsurf 并非从第一天就以当前面貌存在。公司实际上始于四年前，最初名为 ExoFunction，是一家 GPU 虚拟化 (GPU Virtualization) 公司。Varun 和联合创始人此前从事自动驾驶 (Autonomous Vehicles) 和 AR/VR 领域的工作，深信深度学习 (Deep Learning) 将变革从金融服务到国防、医疗等众多行业。

他们构建了一套系统，使运行深度学习工作负载更加便捷——类似于 VMware 对计算机和 CPU 所做的事情，ExoFunction 将其应用于 GPU。到 2022 年中期，公司已为少数企业管理着超过一万块 GPU，营收达到数百万美元。

大胆转型：从 GPU 虚拟化到 AI 编程

然而，Transformer 架构的崛起改变了一切。随着 OpenAI 的 text-DaVinci 等模型的出现，Varun 团队意识到这将从根本上颠覆他们的业务——当所有人都将运行同一种模型架构（Transformer）时，作为 GPU 基础设施提供商将不可避免地被商品化 (Commoditized)。如果所有人都在做同样的事，他们的竞争优势 (Alpha) 何在？

Varun 回忆道，他和联合创始人在一个周末进行了深入对话，结论是"这条路走不通，我们不知道如何规模化这家公司"。他们当时是 GitHub Copilot 的早期用户，认为那是技术发展的冰山一角。周一，他们便告知全公司转型方向，所有人立即开始开发 Codium——一个 VS Code 扩展产品。

此时的公司状况：仅八人团队，虽有数百万美元营收且接近自由现金流 (Free Cash Flow) 为正，已募集 2800 万美元资金，甚至已经完成了 A 轮融资。但 Varun 的判断是：如果不知道如何规模化，当前的小成功毫无意义，必须极快地改变方向。

关键信号在于：他们原本押注各行业会训练定制化的 BERT 等模型，但当尝试了早期版本的 GPT-3 后，他们立刻意识到——没有人会再为情感分类 (Sentiment Classification) 这样的任务训练专门的模型了。假设被事实推翻，必须迅速调整。

Codium 的早期：构建第一个产品

转型后的第一个产品远不如 GitHub Copilot——唯一的优势是免费。团队在转型后约两个月内就构建了 VS Code 扩展并发布到 Hacker News 上。初期使用的模型是一个开源模型，质量远不如 GitHub Copilot 所用的模型。

但很快，团队的训练基础设施取得了突破。他们基于任务需求训练了自己的模型，并在两个月内获得了 GitHub Copilot 都不具备的能力——代码中间填充 (Fill-in-the-Middle)。当编写代码时，不仅是在光标末尾添加代码，还需要在已有代码之间填充内容，而这部分代码通常非常不完整，与原始模型的训练数据大相径庭。Windsurf 专门为此场景训练模型，使其在此用例上表现卓越，从而在质量和延迟 (Latency) 上实现了超越。到 2023 年初，他们的自动补全能力已明显优于 Copilot。

从零训练模型的技术突破

从 GPU 虚拟化到训练编程模型，这是一个巨大的能力跨越。Varun 解释了关键因素：由于公司原本就是 GPU 虚拟化公司，他们拥有自己的推理运行时 (Inference Runtime)，这使得他们能够快速以开源模型发布 V0 版本并免费提供。

此后，虽然团队此前从未训练过此类模型，但他们招募了聪明、有能力且充满求胜欲的人才。在生死存亡的压力下，决策变得极为简单——要么搞清楚如何获取数据、如何大规模训练、如何清洗数据、如何让模型处理不完整代码的场景，要么就是等死。团队在极短时间内交付了训练好的模型，而这一切仅靠约八人的团队在两个月内完成。

企业客户与多 IDE 支持

产品免费策略带来了大量跨 IDE 的开发者用户——VS Code、JetBrains、Eclipse、Vim 等。很快，企业开始主动联系，不仅需要安全地运行产品，还希望将产品个性化适配到公司内部的私有数据。Dell、JP Morgan Chase 等公司陆续成为客户，这些企业内部有数万开发者在产品上工作。

Windsurf 特别重视确保产品在超大型代码库上的表现——有些客户的代码库超过一亿行代码。快速的建议只是基本要求，确保建议真正个性化适配代码库和开发环境才是关键。

关于多 IDE 扩展的决策，Varun 解释道：如果要服务企业客户，就必须支持企业中使用的所有 IDE。例如 JP Morgan Chase 超过一半的开发者使用 Java，而全球 70-80% 的 Java 开发者使用 IntelliJ IDEA。如果只支持 VS Code，Windsurf 将无法成为企业的默认解决方案。

幸运的是，由于很早做出了这个决策，它改变了产品的架构方式——Windsurf 不是为每个 IDE 构建独立版本，而是将大量共享基础设施设计为跨编辑器通用，只需编写极少量的特定代码即可支持新 IDE。

从 Codium 到 Windsurf：构建智能体 IDE

到 2023 年中期，Windsurf 已与大型企业合作，企业业务收入已达八位数。但行业变化极快，Varun 坦言公司内部的大多数赌注其实都不成功，而当只有 50% 的事情在运转时他反而感到高兴——因为 100% 成功率可能意味着三种问题：第一，努力不够；第二，过于傲慢 (Hubris)，认为一切自己做的都对；第三，没有真正在测试假设以探索未来方向。

团队早在去年初就相信智能体 (Agent) 将极其重要，并已有了原型，但当时它们就是无法正常工作。不过，他们积累的关键能力——理解大型代码库、理解开发者意图、快速对代码库进行编辑——都为智能体的成功做好了准备。缺少的只是一个能够高效调用这些工具的模型。

去年中期，Claude 3.5 Sonnet 的出现彻底改变了局面。Windsurf 团队意识到他们已具备智能体能力，但 VS Code 的天花板限制了他们能向开发者展示的体验。他们预判开发者将花费更多时间审查 AI 产出的代码，而非编写代码，而现有的 VS Code 扩展无法提供足够好的体验。

作为一家以技术为核心的产品公司——产品服务于技术——他们决定构建自己的 IDE。这就是 Windsurf IDE 诞生的触发点。团队在不到三个月内完成了跨所有操作系统的发布，工程团队当时仍不到 25 人。产品在早期采用者中迅速走红，尽管存在不少粗糙之处导致用户来去频繁，但随着智能体能力和被动补全体验的持续提升，留存率稳步增长。

产品哲学：智能体优先

Windsurf 的产品理念与当时的竞品截然不同。当所有产品（GitHub Copilot、Cursor 等）还停留在聊天 (Chat) 加自动补全 (Autocomplete) 的模式时，Windsurf 采取了鲜明的立场：智能体才是技术发展的方向，他们是市场上第一个智能体编辑器 (Agentic Editor)。

他们不认同"@ 提及一切"的交互范式，将其类比为 Google 出现之前的搜索引擎——那些充斥着各种分类搜索入口的着陆页，而 Google 带来了简洁的搜索框。Windsurf 认为，随着软件构建变得越来越容易，当前产品中那些看似为用户着想的高度可配置性，在未来将变得不必要。

因此，他们将投资重点放在：深度理解代码库以把握开发者意图、快速对代码库进行编辑修改，而非让用户手动标注 (Tag) 上下文。

竞争心态：不变的冷静

面对微软/GitHub Copilot 和 Cursor 等强劲对手，Varun 表示公司士气并不受竞争对手影响。Windsurf 经历了太多动荡——从十人规模就彻底杀死原有想法的转型已是公司常态。而且，行业中的竞争者一直在变化：2023 年初所有人都认为 Copilot 不可战胜；之后 Devon 出现又被奉为万能方案；现在 Cursor 表现出色。真正重要的是：是否有好的长期战略，是否在朝战略方向执行，同时在细节上保持灵活。

Varun 强调，他们不会把头埋在沙子里假装自己的产品无敌，会认真研究竞品，但不会因此动摇核心方向。

技术深潜：上下文与 RAG

在代码上下文理解方面，Varun 对 RAG (Retrieval-Augmented Generation，检索增强生成) 的态度颇为微妙。他认为 RAG 的理念是正确的——你需要检索一些内容，基于检索结果生成内容——但问题出在人们对实现方式的过度教条：认为 RAG 必须通过向量数据库 (Vector Database) 实现搜索。

Windsurf 的方法是将上下文中填充最相关的代码片段，采用的组合技术包括：关键词搜索 (Keyword Search)、RAG、抽象语法树解析 (Abstract Syntax Tree Parsing，AST Parsing)，以及利用自有的 GPU 基础设施对代码库的大块内容进行实时排序 (Real-time Ranking)。

动机很简单：开发者的需求往往很特殊，比如"将所有使用这个 API 的地方升级到新版本"。如果嵌入搜索 (Embedding Search) 只找到 10 个中的 5 个，这个功能就不太有用。必须确保精确率 (Precision) 和召回率 (Recall) 尽可能高，因此需要组合多种技术才能达到最佳效果。

Varun 指出，很多 AI 创业公司对问题领域走了智识上的捷径 (Intellectual Shortcut)，而 Windsurf 从第一性原理 (First Principles) 出发构建了更复杂的系统。这种深度部分源于团队在自动驾驶领域的经验——在那个领域，你不能只是"放手一搏" (YOLO)，你需要非常好的评估。

评估系统：代码的终极优势

Windsurf 的评估 (Eval) 系统是其技术投资的基石。代码的独特属性在于它可以被运行，这为评估提供了强大基础。

具体方法包括：从开源项目中找到附带测试 (Tests) 的提交 (Commits)，提取提交意图后删除除单元测试外的所有代码，然后测试系统是否能检索到需要修改的位置、是否能根据高级意图做出修改、修改后测试是否通过。

他们还设计了"填充任务" (Infill Task)：只放入三分之一的变化，不提供完整意图，看系统能否补全剩余部分使测试通过。通过这种方式，可以将评估拆解为极高粒度：检索准确率、意图准确率、测试通过率等。

Varun 强调，在为 AI 应用添加复杂性之前，你必须先构建一个可以攀登的严格"山丘" (Hill)，否则就是在黑暗中射击。他们并不追求复杂性，而是追求最简代码实现最大影响——评估系统证明了 AST 解析等复杂技术的必要性。

产品开发兼顾"直觉驱动" (Vibes) 和评估驱动：对于复杂的检索系统，评估更为重要，因为人很难对数百个 GPU 并行处理的结果有直觉判断；而对于"查看代码库中打开的文件"这样的功能，直觉先行，随后再构建评估。

氛围编程与严肃工程

Varun 承认公司内部很多人并没有像大众那样从 ChatGPT 获得巨大价值——不是因为 ChatGPT 不好，而是因为他们早已习惯使用 Stack Overflow 等工具。但随着智能体的出现，情况发生了质变。

Windsurf 的开发者现在面对任务时，第一反应不再是打开编辑器手动编码，而是将意图输入 Windsurf 让智能体执行。公司内部甚至软件部署流程都完全由 Windsurf 中的工作流完成，大量样板代码 (Boilerplate) 和重复性任务已被消除。

对于如何让智能体做出精确而非过度宽泛的修改，Varun 的建议是：需要对系统有一点信心，允许它犯一些错。很多人因为智能体 90% 正确、10% 错误就否定整个工具，但正确的做法是利用回滚 (Revert) 功能，或继续迭代查看最终效果。最重要的建议是：尽可能频繁地提交 (Commit) 代码，避免积累大量变更后无法回退的困境。

Git 与智能体协作的未来

Varun 认为，未来将会有多个智能体并行在代码库上工作，这带来了一些权衡——两个智能体同时修改同一段代码会产生冲突，而同时检出多个分支让不同智能体独立工作也有困难。

Git 仍然是很好的工具，关键在于如何改造 Git 以适应新的产品形态。例如，Git 的工作树 (Work Trees) 功能允许在同一目录下维护多个版本，多个智能体可以在不同的工作树上工作。或者，维护一个由智能体操作的分支，以高频率将其应用到用户的主分支上。

Windsurf 的核心理念之一是"统一时间线" (Unified Timeline)——不仅追踪开发者的操作，还追踪智能体的操作。编辑器中的手动编辑、终端中的操作都被捕获，意图被追踪，因此当你使用 AI 时，AI 能理解完整的上下文。智能体并非在完全独立的时间线上运行，而是以高频率合并到开发者的工作流中。

Varun 坦诚这是一个开放性问题，他们还没有完美的答案。

技术的未来：从开发者到构建者

当被问及 Windsurf 未来的演进方向时，Varun 对"氛围编程只是短暂风潮"的论调予以反驳。他以数学奥林匹克 (AIME) 为例：自己的最高分约为 14 分，而去年初 AI 的得分可能不到 5 分，如今 O4 Mini 的平均得分已达 14.5-15 分。将这种进步速度外推到软件开发的各个环节——编写代码、审查代码、测试代码、调试代码、设计代码——AI 将在极短时间内为每个环节带来 10 倍的杠杆效应。

Varun 设想的未来是："开发者"的概念将扩展为"构建者" (Builder)，每个人都将成为构建者。你可以想象向 AI 助手说"帮我构建一个追踪卡路里摄入的东西"——它不是某个通用 App，而是一个从你的 AR 眼镜获取所有输入、为你量身定制的软件，包含提醒你是否达成目标的任务。这就是属于你自己的、可以持续调整的定制软件。在这个未来中，每个人都在"构建"，但人们并不一定意识到自己构建的是"软件"——他们只是在为自己创建能力和技术。

非技术用户的使用现状

令人惊讶的是，Windsurf 有大量完全不懂编程的用户。Varun 坦言公司对此也感到震惊：产品是一个 IDE，但确实有相当比例的用户从未打开过编辑器，他们完全生活在 Windsurf 的智能体 Cascade 中——使用浏览器预览 (Browser Preview) 点击操作、做出修改。

好处是，当这些用户回到代码库时（代码可能已经变得相当混乱），Windsurf 能够理解代码并从构建者离开的地方继续工作。不过 Varun 也承认，公司尚未针对这一用例做充分优化。

关于长期是否会是一个产品服务两类用户，Varun 认为可能会走向统一，但目前作为创业公司，精力有限，仍将以开发者为优先。他特别指出一个关键问题：对于纯非开发者产品，如果不去理解代码，你攀爬的"山丘"是什么？如何知道产品在变好？如果完全依赖基础模型变好，那你的产品就是基础模型之上的极薄一层，这是一个危险的位置。

"GPT 套壳"质疑与基础模型之上的价值

关于"GPT 套壳" (GPT Wrapper) 的质疑，Varun 的回应是：这是一个不断移动的球门。如果当前产品生成了 80-90% 的已提交代码，当新模型发布时，他们不能停留在原地——也许需要达到 95%。他们的机会在于基础模型与 100% 之间的差距。

关键洞察是：只要人工参与 (Human-in-the-loop) 的环节存在，就一定有差距，就有构建价值的空间。而新模型的出现意味着基线提升了，但这也意味着在基线之上每增加一两个百分点，相对增益可能高达 20%——因为 90% 变成了新的基线，而 92-93% 相对于 90% 的基线仍有显著价值。

给 AI 编程创业者的建议

Varun 认为有两个特别值得关注的机会方向：

第一是专业化迁移——例如 Java 版本迁移、JVM 7 到 8 的升级、Rails 版本迁移，甚至 COBOL 到 Java 的迁移。仅 COBOL 迁移一项就是价值数十亿美元的品类——美国国税局 (IRS) 的大部分软件运行在 COBOL 上，2000 年代初他们曾尝试从 COBOL 迁移到 Java，项目耗资超过 50 亿美元最终未能完成。如果能用 AI 很好地完成这些任务，经济价值巨大。

第二是自动化告警与缺陷处理——开发者大量时间花在不直接改善产品但至关重要的工作上，如自动解决告警和 Bug。这也是一个巨大的支出领域，目前尚未看到真正脱颖而出的最佳产品。

终极建议：更快地改变想法

回顾整个旅程，Varun 给五年前自己（以及所有创业者）的终极建议是：以远超你认为合理的速度去改变想法。

人们很容易反复爱上自己的想法——你确实需要如此，否则什么都不会做——但要尽可能快地转型 (Pivot)，并将转型视为一种荣誉徽章 (Badge of Honor)。大多数人没有勇气改变自己的想法，宁愿在原本告诉所有人的方向上失败，也不愿改变主意、采取大胆行动并取得成功。

正如 Varun 在节目开篇所言：对任何创业公司来说，你必须不断证明自己。我们拥有的每一个洞见都是贬值的洞见。看看 Nvidia——如果 Nvidia 在未来两年不创新，AMD 就会追上来。只有通过持续产生洞见、从市场学习并随时间复利优势，才能维持竞争力。护城河 (Moat) 不是名词，而是动词。