Cursor CEO：超越代码、超级智能AI代理，以及为什么品味仍然重要

cover

摘要

本文是对Anysphere公司（Cursor背后的公司）联合创始人兼CEO Michael Truell的深度访谈精译。Cursor是当下最受关注的AI编程平台之一，在推出仅20个月后便达成1亿美元年度经常性收入 (ARR)，估值达到90亿美元，成为有史以来增长最快的初创公司之一。Truell在访谈中详细阐述了Cursor的核心愿景——用更好的方式替代编程，而非仅仅是辅助编程。他区分了当前AI编程的两种主要形态：Tab自动补全 (Tab Form Factor) 和代理委派 (Agent Form Factor)，并指出两者在未来6到12个月内都将实现数量级的提升。他深入讨论了上下文窗口 (Context Window)、持续学习 (Continual Learning) 和长时间跨度任务执行等技术瓶颈，强调"品味" (Taste) 是未来软件工程师不可替代的核心能力。访谈还涵盖了Cursor的早期创业历程——从机械工程CAD辅助工具的失败尝试，到坚定押注编程领域的战略转折；从选择构建独立编辑器而非扩展插件的冒险决策，到以"付费重度用户"为核心指标的冷启动策略。Truell认为，编程市场的格局类似于90年代末的搜索市场——产品天花板极高，分发即产品优势，持续推动前沿才能获得巨大回报。他预测未来十年将是"构建能力被极大放大"的十年，无论是专业开发者还是普通用户都将受益。

正文

终极目标：替代编程

对Cursor而言，最终目标是用远优于编程的方式替代编程。Truell和他的三位联合创始人都是资深程序员，吸引他们从事编程的核心在于：能够快速构建东西。然而，编程本身要求你编辑数百万行晦涩的形式化编程语言 (Formal Programming Languages)，需要大量劳动才能让屏幕上呈现出那些用简单语言就能描述的效果。他们相信，在未来5到10年内，将有可能发明一种更高级、更高效的软件构建新方式——这种方式仍然围绕定义软件的运作方式和外观，但不再需要逐行编写底层代码。

Cursor的策略是：在任何时刻都成为用AI编程的最佳方式，然后逐步将这一过程从传统编程演变为完全不同的形态。

当前现实：我们还没到那一步

有人会说现在已经可以"描述你想要的，然后它就出来了"。对此Truell指出，我们确实看到了变革的最初迹象。在小规模代码库 (Codebase)、小团队的环境下，变化最为显著——人们已经开始上升到更高层级的抽象 (Higher Level of Abstraction)，让代理 (Agents) 和AI为他们完成所有变更。

但在专业领域，仍有很长的路要走。所谓"氛围编程" (Vibe Coding)——即不看代码、不理解代码的编程方式——并不真正奏效。当你面对数百万行代码、数十或数百人协作多年的项目时，你无法回避对代码的思考。目前Cursor内AI生成的代码行数占比约为40%到50%，但程序员仍然需要阅读AI产出的每一行代码。

两种AI编程形态

当前人们用AI编程主要有两种方式：

Tab自动补全 (Tab Form Factor)：AI在你肩头"看"着，偶尔接管键盘。编程中有大量工作是高度可预测的——当你看着某人接下来的10到20分钟工作时，Tab形态可以走得很远。
代理委派 (Agent Form Factor)：你将任务委派给AI，说"去做这件事"或"帮我回答这个问题"。就像委派给另一个人一样，这种形态同样可以走得很远。

Truell认为，未来6到12个月的关键是让这两种形态都提升一个数量级。当它们成熟到足以支撑25%到30%的专业开发工作可以完全端到端地依赖这些形态时，就需要解决在真实世界中如何运作的一系列问题。

LLM的两种视角

一种看待大语言模型 (LLM) 的方式是将其视为类似人类的助手。另一种方式是将其视为一种高级编译器 (Compiler) 或解释器 (Interpreter) 技术。Cursor始终致力于做一个帮助人类将脑中想法变为屏幕现实的工具——这意味着要给人对最细微细节的控制权。你应始终能够将某物移动几个像素，始终能够编辑关于逻辑的某些特定内容。

一种有用的UI方式是始终将软件的逻辑以书面形式呈现，你可以指向逻辑的各个部分并对其进行编辑。但如果发展到不再需要关注代码的阶段，那种逻辑的书面表达就需要变得更高层级。

技术瓶颈：上下文窗口与持续学习

关于上下文窗口的限制：当你拥有1000万行代码——可能相当于1亿个Token (Tokens)——时，既需要模型能够实际摄入这些内容，又需要成本效益，还需要模型能有效关注上下文窗口中的内容，这些都是棘手的问题。

持续学习 (Continual Learning) 和长上下文 (Long Context) 是实现超人能力的明确瓶颈。此外还有长时间跨度任务的执行能力——AI在任务上持续取得进展的最大时间长度正在增长，从秒级提升到了约1小时。

计算机使用能力 (Computer Use) 也是关键：软件工程师需要运行代码、查看输出、与人类使用的工具交互。这些已知和未知的挑战都是实现超人编程代理必须面对的。

即使有人类水平的编程代理

即使你拥有可以与之对话的、在编程上达到或超越人类水平的代理，仅仅用文本框描述软件变更的方式是不精确的。如果你关心人类能否控制屏幕上显示的内容，就需要一种不同的交互方式。可能的UI演进方向包括：编程语言进化为更高级的形式，或者直接操控UI——能够指向屏幕上的内容并说"改一下这个"，或直接调整数值。

品味：不可替代的核心

Truell认为，有一件事将是不可替代的：品味 (Taste)。品味不仅仅是定义软件的视觉方面，软件的非视觉层面同样存在品味成分——关于逻辑如何运作。

当前编程将多个步骤捆绑在一起：弄清楚你到底想要什么、你定义的产品逻辑是什么、以及高层品味的实现细节如何映射到物理计算机上。大量编程实质上是"人类编译"——你知道想要什么，能告诉另一个人，但必须为计算机逐字拼写出来：for循环、if语句、变量、方法。

随着AI越来越多地填补这些细节，那种"人类编译"的步骤将逐渐消失。但作为帮助人们构建东西的工具，关于什么是有用的、你想构建什么的品味，将永远不会消失。

逻辑设计师与未来影响

随着技术成熟，将产生多重影响：

专业开发者将大幅提升生产力：千人软件项目的进度缓慢得令人难以置信，百人项目也是如此。这很大程度上源于既有逻辑的重量。新代码库中你可以从头开始、快速推进；但修改一处就会引发连锁故障。
更多利基软件 (Niche Software) 将出现：Truell举了自己在生物技术公司的第一份工作的例子——湿实验室科学家开发药物的团队需要大量内部软件开发。他们不得不招聘整个软件工程团队来做内部产品开发。未来，这类公司将拥有远比现在多的选择。
数字空间的物理法则本就优越，而AI将把这一切推到更高的层次。你想在计算机上实现的事情将能够真正实现。

早期创业：从CAD到编程的曲折之路

Cursor的联合创始人——Swale、Arvid和Aman——在MIT相识。他们最初进行了一项"雄心勃勃的想法练习"，选择了一个他们并不太了解的知识工作领域：机械工程，开发面向计算机辅助设计 (CAD) 的辅助工具。

他们训练3D自动补全模型 (3D Autocomplete Models)，帮助在SolidWorks或Fusion 360中进行3D建模的用户预测下一步几何变更。这涉及大量数据工作和网络爬取 (Data Scraping)。最终他们放弃了这个方向，原因有二：一是他们对机械工程远不如对编程那么兴奋——他们本身都是程序员；二是当时的科学水平尚未准备好应对3D领域——预训练模型不够好，互联网上的CAD模型数据比代码少了几个数量级。

但这段"假启动"并非毫无价值：他们训练了数十亿参数规模的大语言模型，进行了大规模推理——这些经验在Cursor中每天处理超过5亿次模型调用时发挥了巨大作用。

关键转折：押注编程的未来

他们始终了解编程、始终对AI将如何改变编程充满期待，但对进入这个领域有所顾虑——已有太多人在做，而且Copilot非常出色。但当他们放弃CAD时，将他们拉回编程的是个人兴趣；而给他们信心的，是观察到其他人在9个月中的进展似乎比本可以实现的更慢，以及一个核心信念：如果坚定相信5年内所有编程都将流经这些模型、编程活动将彻底改变，那么这个天花板是极高的，而现有玩家并没有瞄准一种完全不同的编程方式的雄心。

他们有一个口号叫"跟随线" (Follow the Line)——始终跟随那条进步的线，并为那条线将要到达的位置做规划。

2022：关键的一年

2022年是令人难以置信的关键之年。年初几乎无人谈论AI；然后是InstructGPT让GPT-3稍微好用了一些；接着DALL·E在夏天面世——这是一个让很多非本领域人士开始关注AI的触觉性时刻；之后是PaLM和Stable Diffusion；然后是RLHF (基于人类反馈的强化学习)、GPT-3.5——模型在不大幅增加训练成本的情况下变得远比之前更好。据传，从GPT-3到ChatGPT的训练成本仅增加了约1%，主要来自指令微调 (Instruction Fine-tuning) 和RLHF。

构建编辑器而非扩展

早期一个源自对更激进未来信仰的产品决策是：不构建扩展 (Extension)，而是构建编辑器 (Editor)。这在当时并不明显。

他们了解GitHub Copilot的内部故事：团队花了近一年在沙漠中游荡，尝试各种产品创意，从自动化PR到各种古怪想法，最终才找到自动补全这个简单的方案。但即便自动补全做好了，他们也需要在编辑器层面进行修改，不得不去改动VS Code的主线代码、暴露不同的编辑器API来显示"幽灵文本" (Ghost Text)。这在组织上其实相当困难。如果连自动补全都需要修改编辑器，Cursor深知自己需要做的修改远不止于此。

他们最初从零构建了自己的编辑器，后来转向基于VS Code，但编辑器的决策当时并不被看好，受到了很多批评。

产品打磨与冷启动

Cursor发布后的第一年基本是在"荒野"中迭代。从第一行代码到首个公开测试版花了3个月，但随后有一年在极小规模下的公开迭代——增长数字很小。打磨产品花了大约9到12个月，然后才开始构建第一批自定义模型。直到Cursor发布9到12个月后，当产品、团队和底层模型都开始到位时，增长才真正起飞。

核心指标：付费重度用户

他们关注的不是DAU (日活跃用户) 或MAU (月活跃用户)，而是付费重度用户 (Paid Power Users)：你是否每周7天中有4到5天在用AI进行工作。这个指标之所以是付费的，是因为他们服务于专业人士，且交付工具本身有实际成本。

对Cursor而言，为自己构建产品是有效的。这帮助他们避免了一个AI产品的常见陷阱：为演示优化 (Optimizing for the Demo)。用AI很容易拼接出几个看起来惊艳的示例视频，但从能做演示的版本到真正有用的AI产品之间，有很长的路——需要在速度、可靠性、智能和产品体验上都打磨到位。

招聘哲学

他们极度谨慎地对待早期招聘。前10个人将对公司产生深远影响：优秀的人既在未来加速你（当第N个人来面试时会被人才密度震撼），又充当免疫系统（防止不适合的人进入）。他们招聘非常缓慢，部分原因是四位创始人都很技术性，组成的创始团队足够大。

他们需要的是介于基础模型实验室和普通软件公司之间的混合体——模型和产品必须在同一屋檐下协同工作。因此，他们招到了既具有产品思维和商业意识、又有大规模模型训练经验的通才型多面手 (Generalist Polymath)。

关于面试，他们目前仍然在技术初筛中不允许候选人使用AI（仅允许自动补全）。原因有二：不用AI的限时编程仍然是评估技能和智力的绝佳方式；他们不想不公平地淘汰那些优秀但不熟悉AI工具的程序员——宁愿招进来再在工作中教会他们使用，同时从他们首次使用工具的"初学者心态"中挖掘产品洞察。

护城河：搜索市场的类比

Truell认为Cursor所处的市场更像90年代末的搜索市场，而非企业软件市场。企业软件市场的特征是产品核心价值的天花板较低，但锁定效应很强。而搜索市场的产品天花板极高——搜索可以持续变好很长时间。

Cursor的终极目标是替代编程、自动化编程，这条路还有很长很长。关键在于：分发有助于产品变好。拥有大规模用户群让你能看到产品在哪里出问题、哪里做得好，这些反馈又驱动研发，让产品和底层模型持续改进。

另一个灵感来源是2000年代初的消费电子市场——关键是做对iPod时刻和iPhone时刻。ChatGPT时刻就是我们这个时代的iPod/iPhone时刻。如果你能比其他人更快地推动前沿，就能获得巨大的收益。在这个领域还有更多这样的时刻等着被创造。

未来十年：构建能力的极大放大

Truell最后表达了他对未来十年的乐观：这将是一个"构建能力被极大放大"的十年。对于以此为生的专业人士，以及即将获得这种能力的无数普通人来说，这是一个令人兴奋的时代。