Windsurf CEO:押注 AI 智能体、48 小时内转型与编程的未来

cover

摘要

本文基于 YC Light Cone 节目对 Windsurf 联合创始人兼 CEO Varun 的深度访谈,完整呈现了 Windsurf 从 GPU 虚拟化公司 ExoFunction 到 AI 编程工具领导者的发展历程。Varun 讲述了公司在已有数百万美元收入的情况下,如何在短短一个周末决定彻底转型,以及团队仅用两个月就从零构建了首个产品。文章详细阐述了 Windsurf 在自动补全 (Autocomplete)、智能体 (Agent)、上下文理解 (Context Understanding)、评估系统 (Eval System) 等方面的技术洞察,以及从 Codium 到 Windsurf IDE 的产品演进逻辑。Varun 还分享了对"氛围编程" (Vibe Coding) 的看法、非技术用户的使用现状、Git 与智能体协作的未来、基础模型 (Foundation Model) 与应用层价值的关系,以及对 AI 编程领域创业者的建议。贯穿全文的核心哲学是:每一个洞见都是贬值的洞见 (Deprecating Insight),持续创新才是唯一的护城河。

正文

开场:Windsurf 的规模

Varun 作为 Windsurf 的联合创始人兼 CEO 做客 Light Cone 节目,他是将"氛围编程" (Vibe Coding) 推向现实的关键人物之一。当被问及 Windsurf 目前的规模时,Varun 透露:产品已有超过一百万开发者使用,拥有数十万日活用户 (Daily Active Users),应用场景涵盖从修改大型代码库到从零构建应用的方方面面。

起源:ExoFunction 与 GPU 虚拟化

Windsurf 并非从第一天就以当前面貌存在。公司实际上始于四年前,最初名为 ExoFunction,是一家 GPU 虚拟化 (GPU Virtualization) 公司。Varun 和联合创始人此前从事自动驾驶 (Autonomous Vehicles) 和 AR/VR 领域的工作,深信深度学习 (Deep Learning) 将变革从金融服务到国防、医疗等众多行业。

他们构建了一套系统,使运行深度学习工作负载更加便捷——类似于 VMware 对计算机和 CPU 所做的事情,ExoFunction 将其应用于 GPU。到 2022 年中期,公司已为少数企业管理着超过一万块 GPU,营收达到数百万美元。

大胆转型:从 GPU 虚拟化到 AI 编程

然而,Transformer 架构的崛起改变了一切。随着 OpenAI 的 text-DaVinci 等模型的出现,Varun 团队意识到这将从根本上颠覆他们的业务——当所有人都将运行同一种模型架构(Transformer)时,作为 GPU 基础设施提供商将不可避免地被商品化 (Commoditized)。如果所有人都在做同样的事,他们的竞争优势 (Alpha) 何在?

Varun 回忆道,他和联合创始人在一个周末进行了深入对话,结论是"这条路走不通,我们不知道如何规模化这家公司"。他们当时是 GitHub Copilot 的早期用户,认为那是技术发展的冰山一角。周一,他们便告知全公司转型方向,所有人立即开始开发 Codium——一个 VS Code 扩展产品。

此时的公司状况:仅八人团队,虽有数百万美元营收且接近自由现金流 (Free Cash Flow) 为正,已募集 2800 万美元资金,甚至已经完成了 A 轮融资。但 Varun 的判断是:如果不知道如何规模化,当前的小成功毫无意义,必须极快地改变方向。

关键信号在于:他们原本押注各行业会训练定制化的 BERT 等模型,但当尝试了早期版本的 GPT-3 后,他们立刻意识到——没有人会再为情感分类 (Sentiment Classification) 这样的任务训练专门的模型了。假设被事实推翻,必须迅速调整。

Codium 的早期:构建第一个产品

转型后的第一个产品远不如 GitHub Copilot——唯一的优势是免费。团队在转型后约两个月内就构建了 VS Code 扩展并发布到 Hacker News 上。初期使用的模型是一个开源模型,质量远不如 GitHub Copilot 所用的模型。

但很快,团队的训练基础设施取得了突破。他们基于任务需求训练了自己的模型,并在两个月内获得了 GitHub Copilot 都不具备的能力——代码中间填充 (Fill-in-the-Middle)。当编写代码时,不仅是在光标末尾添加代码,还需要在已有代码之间填充内容,而这部分代码通常非常不完整,与原始模型的训练数据大相径庭。Windsurf 专门为此场景训练模型,使其在此用例上表现卓越,从而在质量和延迟 (Latency) 上实现了超越。到 2023 年初,他们的自动补全能力已明显优于 Copilot。

从零训练模型的技术突破

从 GPU 虚拟化到训练编程模型,这是一个巨大的能力跨越。Varun 解释了关键因素:由于公司原本就是 GPU 虚拟化公司,他们拥有自己的推理运行时 (Inference Runtime),这使得他们能够快速以开源模型发布 V0 版本并免费提供。

此后,虽然团队此前从未训练过此类模型,但他们招募了聪明、有能力且充满求胜欲的人才。在生死存亡的压力下,决策变得极为简单——要么搞清楚如何获取数据、如何大规模训练、如何清洗数据、如何让模型处理不完整代码的场景,要么就是等死。团队在极短时间内交付了训练好的模型,而这一切仅靠约八人的团队在两个月内完成。

企业客户与多 IDE 支持

产品免费策略带来了大量跨 IDE 的开发者用户——VS Code、JetBrains、Eclipse、Vim 等。很快,企业开始主动联系,不仅需要安全地运行产品,还希望将产品个性化适配到公司内部的私有数据。Dell、JP Morgan Chase 等公司陆续成为客户,这些企业内部有数万开发者在产品上工作。

Windsurf 特别重视确保产品在超大型代码库上的表现——有些客户的代码库超过一亿行代码。快速的建议只是基本要求,确保建议真正个性化适配代码库和开发环境才是关键。

关于多 IDE 扩展的决策,Varun 解释道:如果要服务企业客户,就必须支持企业中使用的所有 IDE。例如 JP Morgan Chase 超过一半的开发者使用 Java,而全球 70-80% 的 Java 开发者使用 IntelliJ IDEA。如果只支持 VS Code,Windsurf 将无法成为企业的默认解决方案。

幸运的是,由于很早做出了这个决策,它改变了产品的架构方式——Windsurf 不是为每个 IDE 构建独立版本,而是将大量共享基础设施设计为跨编辑器通用,只需编写极少量的特定代码即可支持新 IDE。

从 Codium 到 Windsurf:构建智能体 IDE

到 2023 年中期,Windsurf 已与大型企业合作,企业业务收入已达八位数。但行业变化极快,Varun 坦言公司内部的大多数赌注其实都不成功,而当只有 50% 的事情在运转时他反而感到高兴——因为 100% 成功率可能意味着三种问题:第一,努力不够;第二,过于傲慢 (Hubris),认为一切自己做的都对;第三,没有真正在测试假设以探索未来方向。

团队早在去年初就相信智能体 (Agent) 将极其重要,并已有了原型,但当时它们就是无法正常工作。不过,他们积累的关键能力——理解大型代码库、理解开发者意图、快速对代码库进行编辑——都为智能体的成功做好了准备。缺少的只是一个能够高效调用这些工具的模型。

去年中期,Claude 3.5 Sonnet 的出现彻底改变了局面。Windsurf 团队意识到他们已具备智能体能力,但 VS Code 的天花板限制了他们能向开发者展示的体验。他们预判开发者将花费更多时间审查 AI 产出的代码,而非编写代码,而现有的 VS Code 扩展无法提供足够好的体验。

作为一家以技术为核心的产品公司——产品服务于技术——他们决定构建自己的 IDE。这就是 Windsurf IDE 诞生的触发点。团队在不到三个月内完成了跨所有操作系统的发布,工程团队当时仍不到 25 人。产品在早期采用者中迅速走红,尽管存在不少粗糙之处导致用户来去频繁,但随着智能体能力和被动补全体验的持续提升,留存率稳步增长。

产品哲学:智能体优先

Windsurf 的产品理念与当时的竞品截然不同。当所有产品(GitHub Copilot、Cursor 等)还停留在聊天 (Chat) 加自动补全 (Autocomplete) 的模式时,Windsurf 采取了鲜明的立场:智能体才是技术发展的方向,他们是市场上第一个智能体编辑器 (Agentic Editor)。

他们不认同"@ 提及一切"的交互范式,将其类比为 Google 出现之前的搜索引擎——那些充斥着各种分类搜索入口的着陆页,而 Google 带来了简洁的搜索框。Windsurf 认为,随着软件构建变得越来越容易,当前产品中那些看似为用户着想的高度可配置性,在未来将变得不必要。

因此,他们将投资重点放在:深度理解代码库以把握开发者意图、快速对代码库进行编辑修改,而非让用户手动标注 (Tag) 上下文。

竞争心态:不变的冷静

面对微软/GitHub Copilot 和 Cursor 等强劲对手,Varun 表示公司士气并不受竞争对手影响。Windsurf 经历了太多动荡——从十人规模就彻底杀死原有想法的转型已是公司常态。而且,行业中的竞争者一直在变化:2023 年初所有人都认为 Copilot 不可战胜;之后 Devon 出现又被奉为万能方案;现在 Cursor 表现出色。真正重要的是:是否有好的长期战略,是否在朝战略方向执行,同时在细节上保持灵活。

Varun 强调,他们不会把头埋在沙子里假装自己的产品无敌,会认真研究竞品,但不会因此动摇核心方向。

技术深潜:上下文与 RAG

在代码上下文理解方面,Varun 对 RAG (Retrieval-Augmented Generation,检索增强生成) 的态度颇为微妙。他认为 RAG 的理念是正确的——你需要检索一些内容,基于检索结果生成内容——但问题出在人们对实现方式的过度教条:认为 RAG 必须通过向量数据库 (Vector Database) 实现搜索。

Windsurf 的方法是将上下文中填充最相关的代码片段,采用的组合技术包括:关键词搜索 (Keyword Search)、RAG、抽象语法树解析 (Abstract Syntax Tree Parsing,AST Parsing),以及利用自有的 GPU 基础设施对代码库的大块内容进行实时排序 (Real-time Ranking)。

动机很简单:开发者的需求往往很特殊,比如"将所有使用这个 API 的地方升级到新版本"。如果嵌入搜索 (Embedding Search) 只找到 10 个中的 5 个,这个功能就不太有用。必须确保精确率 (Precision) 和召回率 (Recall) 尽可能高,因此需要组合多种技术才能达到最佳效果。

Varun 指出,很多 AI 创业公司对问题领域走了智识上的捷径 (Intellectual Shortcut),而 Windsurf 从第一性原理 (First Principles) 出发构建了更复杂的系统。这种深度部分源于团队在自动驾驶领域的经验——在那个领域,你不能只是"放手一搏" (YOLO),你需要非常好的评估。

评估系统:代码的终极优势

Windsurf 的评估 (Eval) 系统是其技术投资的基石。代码的独特属性在于它可以被运行,这为评估提供了强大基础。

具体方法包括:从开源项目中找到附带测试 (Tests) 的提交 (Commits),提取提交意图后删除除单元测试外的所有代码,然后测试系统是否能检索到需要修改的位置、是否能根据高级意图做出修改、修改后测试是否通过。

他们还设计了"填充任务" (Infill Task):只放入三分之一的变化,不提供完整意图,看系统能否补全剩余部分使测试通过。通过这种方式,可以将评估拆解为极高粒度:检索准确率、意图准确率、测试通过率等。

Varun 强调,在为 AI 应用添加复杂性之前,你必须先构建一个可以攀登的严格"山丘" (Hill),否则就是在黑暗中射击。他们并不追求复杂性,而是追求最简代码实现最大影响——评估系统证明了 AST 解析等复杂技术的必要性。

产品开发兼顾"直觉驱动" (Vibes) 和评估驱动:对于复杂的检索系统,评估更为重要,因为人很难对数百个 GPU 并行处理的结果有直觉判断;而对于"查看代码库中打开的文件"这样的功能,直觉先行,随后再构建评估。

氛围编程与严肃工程

Varun 承认公司内部很多人并没有像大众那样从 ChatGPT 获得巨大价值——不是因为 ChatGPT 不好,而是因为他们早已习惯使用 Stack Overflow 等工具。但随着智能体的出现,情况发生了质变。

Windsurf 的开发者现在面对任务时,第一反应不再是打开编辑器手动编码,而是将意图输入 Windsurf 让智能体执行。公司内部甚至软件部署流程都完全由 Windsurf 中的工作流完成,大量样板代码 (Boilerplate) 和重复性任务已被消除。

对于如何让智能体做出精确而非过度宽泛的修改,Varun 的建议是:需要对系统有一点信心,允许它犯一些错。很多人因为智能体 90% 正确、10% 错误就否定整个工具,但正确的做法是利用回滚 (Revert) 功能,或继续迭代查看最终效果。最重要的建议是:尽可能频繁地提交 (Commit) 代码,避免积累大量变更后无法回退的困境。

Git 与智能体协作的未来

Varun 认为,未来将会有多个智能体并行在代码库上工作,这带来了一些权衡——两个智能体同时修改同一段代码会产生冲突,而同时检出多个分支让不同智能体独立工作也有困难。

Git 仍然是很好的工具,关键在于如何改造 Git 以适应新的产品形态。例如,Git 的工作树 (Work Trees) 功能允许在同一目录下维护多个版本,多个智能体可以在不同的工作树上工作。或者,维护一个由智能体操作的分支,以高频率将其应用到用户的主分支上。

Windsurf 的核心理念之一是"统一时间线" (Unified Timeline)——不仅追踪开发者的操作,还追踪智能体的操作。编辑器中的手动编辑、终端中的操作都被捕获,意图被追踪,因此当你使用 AI 时,AI 能理解完整的上下文。智能体并非在完全独立的时间线上运行,而是以高频率合并到开发者的工作流中。

Varun 坦诚这是一个开放性问题,他们还没有完美的答案。

技术的未来:从开发者到构建者

当被问及 Windsurf 未来的演进方向时,Varun 对"氛围编程只是短暂风潮"的论调予以反驳。他以数学奥林匹克 (AIME) 为例:自己的最高分约为 14 分,而去年初 AI 的得分可能不到 5 分,如今 O4 Mini 的平均得分已达 14.5-15 分。将这种进步速度外推到软件开发的各个环节——编写代码、审查代码、测试代码、调试代码、设计代码——AI 将在极短时间内为每个环节带来 10 倍的杠杆效应。

Varun 设想的未来是:"开发者"的概念将扩展为"构建者" (Builder),每个人都将成为构建者。你可以想象向 AI 助手说"帮我构建一个追踪卡路里摄入的东西"——它不是某个通用 App,而是一个从你的 AR 眼镜获取所有输入、为你量身定制的软件,包含提醒你是否达成目标的任务。这就是属于你自己的、可以持续调整的定制软件。在这个未来中,每个人都在"构建",但人们并不一定意识到自己构建的是"软件"——他们只是在为自己创建能力和技术。

非技术用户的使用现状

令人惊讶的是,Windsurf 有大量完全不懂编程的用户。Varun 坦言公司对此也感到震惊:产品是一个 IDE,但确实有相当比例的用户从未打开过编辑器,他们完全生活在 Windsurf 的智能体 Cascade 中——使用浏览器预览 (Browser Preview) 点击操作、做出修改。

好处是,当这些用户回到代码库时(代码可能已经变得相当混乱),Windsurf 能够理解代码并从构建者离开的地方继续工作。不过 Varun 也承认,公司尚未针对这一用例做充分优化。

关于长期是否会是一个产品服务两类用户,Varun 认为可能会走向统一,但目前作为创业公司,精力有限,仍将以开发者为优先。他特别指出一个关键问题:对于纯非开发者产品,如果不去理解代码,你攀爬的"山丘"是什么?如何知道产品在变好?如果完全依赖基础模型变好,那你的产品就是基础模型之上的极薄一层,这是一个危险的位置。

"GPT 套壳"质疑与基础模型之上的价值

关于"GPT 套壳" (GPT Wrapper) 的质疑,Varun 的回应是:这是一个不断移动的球门。如果当前产品生成了 80-90% 的已提交代码,当新模型发布时,他们不能停留在原地——也许需要达到 95%。他们的机会在于基础模型与 100% 之间的差距。

关键洞察是:只要人工参与 (Human-in-the-loop) 的环节存在,就一定有差距,就有构建价值的空间。而新模型的出现意味着基线提升了,但这也意味着在基线之上每增加一两个百分点,相对增益可能高达 20%——因为 90% 变成了新的基线,而 92-93% 相对于 90% 的基线仍有显著价值。

给 AI 编程创业者的建议

Varun 认为有两个特别值得关注的机会方向:

第一是专业化迁移——例如 Java 版本迁移、JVM 7 到 8 的升级、Rails 版本迁移,甚至 COBOL 到 Java 的迁移。仅 COBOL 迁移一项就是价值数十亿美元的品类——美国国税局 (IRS) 的大部分软件运行在 COBOL 上,2000 年代初他们曾尝试从 COBOL 迁移到 Java,项目耗资超过 50 亿美元最终未能完成。如果能用 AI 很好地完成这些任务,经济价值巨大。

第二是自动化告警与缺陷处理——开发者大量时间花在不直接改善产品但至关重要的工作上,如自动解决告警和 Bug。这也是一个巨大的支出领域,目前尚未看到真正脱颖而出的最佳产品。

终极建议:更快地改变想法

回顾整个旅程,Varun 给五年前自己(以及所有创业者)的终极建议是:以远超你认为合理的速度去改变想法

人们很容易反复爱上自己的想法——你确实需要如此,否则什么都不会做——但要尽可能快地转型 (Pivot),并将转型视为一种荣誉徽章 (Badge of Honor)。大多数人没有勇气改变自己的想法,宁愿在原本告诉所有人的方向上失败,也不愿改变主意、采取大胆行动并取得成功。

正如 Varun 在节目开篇所言:对任何创业公司来说,你必须不断证明自己。我们拥有的每一个洞见都是贬值的洞见。看看 Nvidia——如果 Nvidia 在未来两年不创新,AMD 就会追上来。只有通过持续产生洞见、从市场学习并随时间复利优势,才能维持竞争力。护城河 (Moat) 不是名词,而是动词。