Cursor CEO:超越代码、超级智能AI代理,以及为什么品味仍然重要

cover

摘要

本文是对Anysphere公司(Cursor背后的公司)联合创始人兼CEO Michael Truell的深度访谈精译。Cursor是当下最受关注的AI编程平台之一,在推出仅20个月后便达成1亿美元年度经常性收入 (ARR),估值达到90亿美元,成为有史以来增长最快的初创公司之一。Truell在访谈中详细阐述了Cursor的核心愿景——用更好的方式替代编程,而非仅仅是辅助编程。他区分了当前AI编程的两种主要形态:Tab自动补全 (Tab Form Factor) 和代理委派 (Agent Form Factor),并指出两者在未来6到12个月内都将实现数量级的提升。他深入讨论了上下文窗口 (Context Window)、持续学习 (Continual Learning) 和长时间跨度任务执行等技术瓶颈,强调"品味" (Taste) 是未来软件工程师不可替代的核心能力。访谈还涵盖了Cursor的早期创业历程——从机械工程CAD辅助工具的失败尝试,到坚定押注编程领域的战略转折;从选择构建独立编辑器而非扩展插件的冒险决策,到以"付费重度用户"为核心指标的冷启动策略。Truell认为,编程市场的格局类似于90年代末的搜索市场——产品天花板极高,分发即产品优势,持续推动前沿才能获得巨大回报。他预测未来十年将是"构建能力被极大放大"的十年,无论是专业开发者还是普通用户都将受益。

正文

终极目标:替代编程

对Cursor而言,最终目标是用远优于编程的方式替代编程。Truell和他的三位联合创始人都是资深程序员,吸引他们从事编程的核心在于:能够快速构建东西。然而,编程本身要求你编辑数百万行晦涩的形式化编程语言 (Formal Programming Languages),需要大量劳动才能让屏幕上呈现出那些用简单语言就能描述的效果。他们相信,在未来5到10年内,将有可能发明一种更高级、更高效的软件构建新方式——这种方式仍然围绕定义软件的运作方式和外观,但不再需要逐行编写底层代码。

Cursor的策略是:在任何时刻都成为用AI编程的最佳方式,然后逐步将这一过程从传统编程演变为完全不同的形态。

当前现实:我们还没到那一步

有人会说现在已经可以"描述你想要的,然后它就出来了"。对此Truell指出,我们确实看到了变革的最初迹象。在小规模代码库 (Codebase)、小团队的环境下,变化最为显著——人们已经开始上升到更高层级的抽象 (Higher Level of Abstraction),让代理 (Agents) 和AI为他们完成所有变更。

但在专业领域,仍有很长的路要走。所谓"氛围编程" (Vibe Coding)——即不看代码、不理解代码的编程方式——并不真正奏效。当你面对数百万行代码、数十或数百人协作多年的项目时,你无法回避对代码的思考。目前Cursor内AI生成的代码行数占比约为40%到50%,但程序员仍然需要阅读AI产出的每一行代码。

两种AI编程形态

当前人们用AI编程主要有两种方式:

  1. Tab自动补全 (Tab Form Factor):AI在你肩头"看"着,偶尔接管键盘。编程中有大量工作是高度可预测的——当你看着某人接下来的10到20分钟工作时,Tab形态可以走得很远。

  2. 代理委派 (Agent Form Factor):你将任务委派给AI,说"去做这件事"或"帮我回答这个问题"。就像委派给另一个人一样,这种形态同样可以走得很远。

Truell认为,未来6到12个月的关键是让这两种形态都提升一个数量级。当它们成熟到足以支撑25%到30%的专业开发工作可以完全端到端地依赖这些形态时,就需要解决在真实世界中如何运作的一系列问题。

LLM的两种视角

一种看待大语言模型 (LLM) 的方式是将其视为类似人类的助手。另一种方式是将其视为一种高级编译器 (Compiler) 或解释器 (Interpreter) 技术。Cursor始终致力于做一个帮助人类将脑中想法变为屏幕现实的工具——这意味着要给人对最细微细节的控制权。你应始终能够将某物移动几个像素,始终能够编辑关于逻辑的某些特定内容。

一种有用的UI方式是始终将软件的逻辑以书面形式呈现,你可以指向逻辑的各个部分并对其进行编辑。但如果发展到不再需要关注代码的阶段,那种逻辑的书面表达就需要变得更高层级。

技术瓶颈:上下文窗口与持续学习

关于上下文窗口的限制:当你拥有1000万行代码——可能相当于1亿个Token (Tokens)——时,既需要模型能够实际摄入这些内容,又需要成本效益,还需要模型能有效关注上下文窗口中的内容,这些都是棘手的问题。

持续学习 (Continual Learning) 和长上下文 (Long Context) 是实现超人能力的明确瓶颈。此外还有长时间跨度任务的执行能力——AI在任务上持续取得进展的最大时间长度正在增长,从秒级提升到了约1小时。

计算机使用能力 (Computer Use) 也是关键:软件工程师需要运行代码、查看输出、与人类使用的工具交互。这些已知和未知的挑战都是实现超人编程代理必须面对的。

即使有人类水平的编程代理

即使你拥有可以与之对话的、在编程上达到或超越人类水平的代理,仅仅用文本框描述软件变更的方式是不精确的。如果你关心人类能否控制屏幕上显示的内容,就需要一种不同的交互方式。可能的UI演进方向包括:编程语言进化为更高级的形式,或者直接操控UI——能够指向屏幕上的内容并说"改一下这个",或直接调整数值。

品味:不可替代的核心

Truell认为,有一件事将是不可替代的:品味 (Taste)。品味不仅仅是定义软件的视觉方面,软件的非视觉层面同样存在品味成分——关于逻辑如何运作。

当前编程将多个步骤捆绑在一起:弄清楚你到底想要什么、你定义的产品逻辑是什么、以及高层品味的实现细节如何映射到物理计算机上。大量编程实质上是"人类编译"——你知道想要什么,能告诉另一个人,但必须为计算机逐字拼写出来:for循环、if语句、变量、方法。

随着AI越来越多地填补这些细节,那种"人类编译"的步骤将逐渐消失。但作为帮助人们构建东西的工具,关于什么是有用的、你想构建什么的品味,将永远不会消失。

逻辑设计师与未来影响

随着技术成熟,将产生多重影响:

  1. 专业开发者将大幅提升生产力:千人软件项目的进度缓慢得令人难以置信,百人项目也是如此。这很大程度上源于既有逻辑的重量。新代码库中你可以从头开始、快速推进;但修改一处就会引发连锁故障。

  2. 更多利基软件 (Niche Software) 将出现:Truell举了自己在生物技术公司的第一份工作的例子——湿实验室科学家开发药物的团队需要大量内部软件开发。他们不得不招聘整个软件工程团队来做内部产品开发。未来,这类公司将拥有远比现在多的选择。

  3. 数字空间的物理法则本就优越,而AI将把这一切推到更高的层次。你想在计算机上实现的事情将能够真正实现。

早期创业:从CAD到编程的曲折之路

Cursor的联合创始人——Swale、Arvid和Aman——在MIT相识。他们最初进行了一项"雄心勃勃的想法练习",选择了一个他们并不太了解的知识工作领域:机械工程,开发面向计算机辅助设计 (CAD) 的辅助工具。

他们训练3D自动补全模型 (3D Autocomplete Models),帮助在SolidWorks或Fusion 360中进行3D建模的用户预测下一步几何变更。这涉及大量数据工作和网络爬取 (Data Scraping)。最终他们放弃了这个方向,原因有二:一是他们对机械工程远不如对编程那么兴奋——他们本身都是程序员;二是当时的科学水平尚未准备好应对3D领域——预训练模型不够好,互联网上的CAD模型数据比代码少了几个数量级。

但这段"假启动"并非毫无价值:他们训练了数十亿参数规模的大语言模型,进行了大规模推理——这些经验在Cursor中每天处理超过5亿次模型调用时发挥了巨大作用。

关键转折:押注编程的未来

他们始终了解编程、始终对AI将如何改变编程充满期待,但对进入这个领域有所顾虑——已有太多人在做,而且Copilot非常出色。但当他们放弃CAD时,将他们拉回编程的是个人兴趣;而给他们信心的,是观察到其他人在9个月中的进展似乎比本可以实现的更慢,以及一个核心信念:如果坚定相信5年内所有编程都将流经这些模型、编程活动将彻底改变,那么这个天花板是极高的,而现有玩家并没有瞄准一种完全不同的编程方式的雄心。

他们有一个口号叫"跟随线" (Follow the Line)——始终跟随那条进步的线,并为那条线将要到达的位置做规划。

2022:关键的一年

2022年是令人难以置信的关键之年。年初几乎无人谈论AI;然后是InstructGPT让GPT-3稍微好用了一些;接着DALL·E在夏天面世——这是一个让很多非本领域人士开始关注AI的触觉性时刻;之后是PaLM和Stable Diffusion;然后是RLHF (基于人类反馈的强化学习)、GPT-3.5——模型在不大幅增加训练成本的情况下变得远比之前更好。据传,从GPT-3到ChatGPT的训练成本仅增加了约1%,主要来自指令微调 (Instruction Fine-tuning) 和RLHF。

构建编辑器而非扩展

早期一个源自对更激进未来信仰的产品决策是:不构建扩展 (Extension),而是构建编辑器 (Editor)。这在当时并不明显。

他们了解GitHub Copilot的内部故事:团队花了近一年在沙漠中游荡,尝试各种产品创意,从自动化PR到各种古怪想法,最终才找到自动补全这个简单的方案。但即便自动补全做好了,他们也需要在编辑器层面进行修改,不得不去改动VS Code的主线代码、暴露不同的编辑器API来显示"幽灵文本" (Ghost Text)。这在组织上其实相当困难。如果连自动补全都需要修改编辑器,Cursor深知自己需要做的修改远不止于此。

他们最初从零构建了自己的编辑器,后来转向基于VS Code,但编辑器的决策当时并不被看好,受到了很多批评。

产品打磨与冷启动

Cursor发布后的第一年基本是在"荒野"中迭代。从第一行代码到首个公开测试版花了3个月,但随后有一年在极小规模下的公开迭代——增长数字很小。打磨产品花了大约9到12个月,然后才开始构建第一批自定义模型。直到Cursor发布9到12个月后,当产品、团队和底层模型都开始到位时,增长才真正起飞。

核心指标:付费重度用户

他们关注的不是DAU (日活跃用户) 或MAU (月活跃用户),而是付费重度用户 (Paid Power Users):你是否每周7天中有4到5天在用AI进行工作。这个指标之所以是付费的,是因为他们服务于专业人士,且交付工具本身有实际成本。

对Cursor而言,为自己构建产品是有效的。这帮助他们避免了一个AI产品的常见陷阱:为演示优化 (Optimizing for the Demo)。用AI很容易拼接出几个看起来惊艳的示例视频,但从能做演示的版本到真正有用的AI产品之间,有很长的路——需要在速度、可靠性、智能和产品体验上都打磨到位。

招聘哲学

他们极度谨慎地对待早期招聘。前10个人将对公司产生深远影响:优秀的人既在未来加速你(当第N个人来面试时会被人才密度震撼),又充当免疫系统(防止不适合的人进入)。他们招聘非常缓慢,部分原因是四位创始人都很技术性,组成的创始团队足够大。

他们需要的是介于基础模型实验室和普通软件公司之间的混合体——模型和产品必须在同一屋檐下协同工作。因此,他们招到了既具有产品思维和商业意识、又有大规模模型训练经验的通才型多面手 (Generalist Polymath)。

关于面试,他们目前仍然在技术初筛中不允许候选人使用AI(仅允许自动补全)。原因有二:不用AI的限时编程仍然是评估技能和智力的绝佳方式;他们不想不公平地淘汰那些优秀但不熟悉AI工具的程序员——宁愿招进来再在工作中教会他们使用,同时从他们首次使用工具的"初学者心态"中挖掘产品洞察。

护城河:搜索市场的类比

Truell认为Cursor所处的市场更像90年代末的搜索市场,而非企业软件市场。企业软件市场的特征是产品核心价值的天花板较低,但锁定效应很强。而搜索市场的产品天花板极高——搜索可以持续变好很长时间。

Cursor的终极目标是替代编程、自动化编程,这条路还有很长很长。关键在于:分发有助于产品变好。拥有大规模用户群让你能看到产品在哪里出问题、哪里做得好,这些反馈又驱动研发,让产品和底层模型持续改进。

另一个灵感来源是2000年代初的消费电子市场——关键是做对iPod时刻和iPhone时刻。ChatGPT时刻就是我们这个时代的iPod/iPhone时刻。如果你能比其他人更快地推动前沿,就能获得巨大的收益。在这个领域还有更多这样的时刻等着被创造。

未来十年:构建能力的极大放大

Truell最后表达了他对未来十年的乐观:这将是一个"构建能力被极大放大"的十年。对于以此为生的专业人士,以及即将获得这种能力的无数普通人来说,这是一个令人兴奋的时代。