从创意到6.5亿美元退出:构建AI创业公司的经验教训

cover

摘要

Jake Heller曾是律师,后转型为创业者,于2013年创办CaseText,专注于将AI应用于法律领域。当BERT论文和Transformer架构问世后,他的团队及早布局大语言模型 (LLM),并在2022年夏天获得GPT-4的早期访问权限。当时公司已有2000万美元收入和100名员工,但他决定停止一切,基于全新技术构建产品——这就是Co-Counsel,业界首个也是至今最佳的AI律师助手,最终被Thomson Reuters以6.5亿美元现金收购。Jake在演讲中系统分享了三大核心议题:如何选择创意、如何构建可靠的AI产品、以及如何成功营销和销售。在创意选择上,他指出AI让"做人们想要的东西"变得更容易——只需看人们目前在为哪些人工任务付费,分为三大类别:协助 (Assistance)、替代 (Replacement) 和实现以前不可想象的事情 (Previously Unthinkable)。TAM (总可寻址市场) 因此扩大了10到1000倍,因为定价基准从SaaS的每月20美元变成了专业人员年薪的量级。在构建层面,他强调必须深入理解专业人士的实际工作流程,将其拆解为步骤,转化为提示词 (Prompt) 或代码,然后通过严格的评估 (Evaluation) 体系反复打磨——从12个测试开始,扩展到100个,再从真实客户反馈中持续迭代。在营销和销售层面,他反对"营销和销售最重要"的VC论调,坚持产品品质才是根本;同时给出了三条建议:按价值定价而非按SaaS模式定价、倾听客户想要的付费方式、以及通过头对头比较 (Head-to-head Comparison) 建立信任。

正文

从律师到6.5亿美元退出

Jake Heller从小就是程序员,后来迷恋上了法律与政策,成为一名律师,经历了法学院、书记员和大型律所的典型职业路径。但正如任何会编程的人进入法律、会计或金融等传统行业后的第一反应:"我简直不敢相信他们居然是这样做事的。"他随即在2013年创办了CaseText——当时在场的很多人大概才八岁左右。这也说明了创业成功往往需要很长时间。

CaseText长期深耕一个核心信念:AI应用于法律可以带来巨大变革。事实上,他们开始专注时甚至不叫AI,而是自然语言处理 (NLP) 或机器学习 (Machine Learning)。他们的AI研究员在BERT论文和"Attention Is All You Need"问世时就看到了AI技术应用于法律领域的潜力。因为深入研究大语言模型,他们获得了GPT-4的早期访问权限——2022年夏天,公司已有2000万美元收入和100人团队,但他们决定停止一切,基于新技术构建全新的产品。这就是Co-Counsel,第一个也是至今最好的AI律师助手。他们被Thomson Reuters以6.5亿美元现金收购。但Jake相信,在座的人未来将构建价值远超这个数字的产品,因为AI将为你们解锁构建惊人物品的能力。

如何选择创意:三大类别

Y Combinator的信条是"做人们想要的东西" (Make Something People Want)。过去这确实很难,你需要反复试错。但Jake认为,现在这变得容易多了——人们想要什么?看他们正在为什么付费。 人们目前花钱请人完成的任务,就是他们想要的东西:客户支持、保险理赔员、律师助理、私人教练、行政助理等等。

AI时代的创意选择可以归为三大类别:

  1. 协助 (Assistance):帮助专业人士完成任务。Co-Counsel就是这个方向——律师需要阅读大量文档、做研究、审查合同、修改红线、发送给对方律师。
  2. 替代 (Replacement):完全替代工作。人们目前雇佣律师,如果我们变成一家AI驱动的律所呢?会计、金融专家、物理治疗师、折叠洗衣——AI可以直接替代这些任务。
  3. 以前不可想象的事 (Previously Unthinkable):律所拥有数亿份文档,过去绝不会想到让人逐份阅读、分类、摘要和索引——那要花费数百万美元。但现在可以让数千个Gemini 2.0 Flash实例逐一阅读每份文档,以前不可想象的事现在变得可行了。

TAM扩大了10到1000倍

过去总可寻址市场 (Total Addressable Market, TAM) 是按专业人员的座位数乘以每座每月20美元来计算的。很多十亿美元公司就是这样建立的。但今天,人们和公司愿意花的钱已经是他们目前支付给所有从事该工作的人的薪资总和。这个数字比过去大了一千倍。你付20美元/月解决一个SaaS问题,但可能付5000到20000美元/月给某些专业人士来解决问题。AI应用可赚取的钱比过去大了10倍、100倍甚至1000倍。

这听起来可能有些反乌托邦 (Dystopian),但Jake认为恰恰相反——这是美好的。首先,你将解锁一个新未来:就像过去的点灯人 (Lamplighter) 职业一样,电灯出现后我们无法想象还曾有人专门做这份工作。其次,你将民主化 (Democratize) 获得以前极难或极昂贵的服务的机会。在法律领域,超过85%的低收入人群无法获得法律服务;如果AI能让律师快100倍、便宜10倍,或者直接以AI律所身份提供服务,那么以前被拒之门外的客户现在可以得到帮助。每个人都应该获得世界上最好的金融助理、个人助理、编程助理。

如何构建:从专业流程到提示词

构建可靠AI产品的第一步是搞清楚专业人士到底在做什么。不要凭空想象,要真正了解。Jake自己是律师,联合创始人是律师,公司30%到40%的员工——包括程序员——都是律师,因为他们亲身经历过这些工作。如果你不是领域专家,就去当"卧底"——深入这些公司学习,或者找到有深厚领域专长的联合创始人。

然后问自己:如果该领域最优秀的人拥有无限时间和一千个AI同时工作,他们会怎么做? 从答案倒推,写出具体步骤。以法律研究为例:收到研究请求后,优秀的律师会先提出澄清问题,制定研究计划,执行数十次搜索,阅读数百条结果,筛选相关内容,做笔记记录为什么相关、为什么不相关,最后撰写论文,并检查引用是否准确。每个步骤都可以转化为一个提示词 (Prompt):阅读法律意见书并判断相关性(0到7分);根据所有笔记撰写论文;检查脚注引用是否准确。能用确定性代码代替提示词的地方就用代码——提示词又慢又贵。如果步骤是确定性的,做成工作流 (Workflow),用Python把函数串联起来即可。如果需要根据情况灵活调整,就需要更偏代理式 (Agentic) 的架构。

评估:从60%到97%的苦行

构建AI产品最困难的部分不是写代码,而是让它真正可靠地工作。这就是评估 (Evaluation, Eval) 发挥关键作用的地方。大多数人只做出60%到70%准确率的演示级产品,你可能凭此融到资,甚至签下首批试用客户,但产品在实际场景中会失败。

评估始于领域专长:"好"是什么样的? 对于给定问题的正确答案是什么?这个文档应该提取什么信息?搜索查询哪些是好哪些是坏?最好的做法是把评估转化为可客观评分的答案,比如让AI输出真/假或0到7之间的数字。

建立评估框架(Jake推荐开源的PromptFoo),为每个输入和提示词设定预期输出。从12个测试开始,争取全部通过;扩展到50个,再到100个。设置留出集 (Holdout Set) 确保不是在过度拟合 (Overfitting) 评估。你会发现AI失败的方式是可预测的——提示词中有歧义、指令不够清晰、系统性地偏向某种错误。通过给出更明确的指令、添加示例来引导AI避开这些错误类别。

最大的成功资质是:你或你的提示词工程师是否愿意花两周时间不眠不休地打磨一个提示词来通过评估。 一开始你可能只有60%的通过率,大多数人这时就放弃了。再花一个晚上,你到61%,又有一批人放弃。但如果你持续两周不断添加评估、调整提示词,你会达到97%的通过率,剩余3%的失败类似于人类在灰色地带的判断差异。

建议在进入正式上线前,每个提示词至少有100个测试、整体任务也有100个测试,通过99个即可。上线后,每个客户投诉都是一个新测试——Jake的公司从真实客户反馈中添加的评估远比实验室里设计的多。客户会用你想象不到的方式使用产品,他们的输入可能完全不像你精心设计的提示词那么清晰。持续迭代,新模型出来就测试,甚至一个词的增减可能提升1%的准确率——在法律、金融、医疗领域,1%就是天壤之别。提示词的GitHub PR应该每天都有。

营销与销售:产品品质是根本

Jake明确反对许多VC主张的"销售和营销最重要"的观点。CaseText有10年时间产品只是"还不错",换了多轮营销和销售负责人,效果平平。但当产品真正出色时,口碑推荐自然爆发,媒体主动报道,销售人员变成了接单员 (Order Taker)。营销和销售最重要的是构建一个卓越的产品,然后让世界知道它。

在AI时代,营销和销售有三条关键建议:

第一,你可能不再是在卖传统软件了。 最令他兴奋的公司正在提供真正的服务——比如为企业审查合同,通常律所每份收费1000美元,他们收500美元。20美元/月的SaaS和500美元/份合同之间是巨大的价格跃升。按你提供的价值定价,不要低估自己。

第二,倾听客户想要的付费方式。 CaseText原本想按使用量定价,但客户说:宁愿付更多钱,也想要全年一致的预算。最终客户选择了每个座位6000美元/年(500美元/月)的定价。给客户他们想要的付费方式。

第三,建立信任。 AI对大公司来说是新且可怕的,CEO被董事会追问"你们在AI上做了什么",他们想试你的产品,但存在信任差距 (Trust Gap)。聪明的公司正在做头对头比较 (Head-to-head Comparison):保留你的律所,同时使用我们的产品,比较速度、质量和结果差异。保持你的会计师,同时使用AI会计系统,对比差异。这是建立信任的好方法。

试点不是终点

销售不是在客户开出支票时结束,更不是在开始试点时结束。Jake作为天使投资人观察到,许多公司报告的ARR (年度经常性收入) 达到1000万美元,但深挖下去发现大部分是六个月的试点费用,这些试点并没有转化为真正的收入。将会出现一场大规模灭绝事件 (Mass Extinction Event),大量试点收入不会变成真金白银。创始人的重要职责是确保每个用户真正使用和理解产品——无论是应用内引导、部署工程师 (Deployed Engineer) 坐在客户身边,还是培训和支持。你的产品不仅是屏幕上的像素,还包括与客户支持、客户成功、创始人的每一次人际互动,以及培训和一切围绕产品的体验。 如果你不把这些做好,即使有最好的像素,也会被在客户投入上更大的公司击败。

Q&A精选

问:如果行业中已有竞争对手,应该换一个行业还是深入细分?
不在乎竞争对手。这些市场大到数万亿级别——市场营销专业人员、支持人员的薪资是万亿级的,不可能一家公司独占。而且,当你开始构建后,你会惊讶于竞争对手有多差,你能在他们周围跑圈。选市场时,看哪些角色目前被外包到其他国家——如果企业愿意外包,那就是AI可以接管的好目标。避开那些被视为企业核心身份的工作(比如Pixar的故事创作)。找大市场、找痛点、找你能获取信息的领域。

问:从种子轮到退出,每个阶段应专注什么?
我应该做的是:种子轮专注做伟大的产品获得产品市场契合 (Product-Market Fit),A轮专注做伟大的产品获得产品市场契合,B轮专注做伟大的产品获得产品市场契合——你应该看出规律了。我实际做的是把精力分散到了许多不那么重要的事情上。公司除了产品之外什么都不是——你服务客户就是通过产品。如果你围绕产品做到极致,其他事情(招聘、营销、文化)都会随之而来。很多创始人因为读了博客和听了投资人建议,把HR、融资、文化当成目的本身而非手段,这是大错。

问:如果做的是人类不可能做到的事(比如阅读数十万份法律文件),如何定价?
一开始可以按人类服务的价格收费,然后竞争者会进来,价格会逐步下降——资本主义的运作方式很美妙,服务会变得越来越便宜。最终你可能只需付1%或10%的价格就能获得律师级服务。先从你为企业提供的价值开始:他们能省1亿美元?原本要花500万美元?取其中的10%到20%。最好直接问客户:你愿意为解决这个问题付多少钱?

问:基于非专有模型的提示词,如何建立防御性而不沦为GPT套壳?
最快的回答:动手去建。一旦你开始构建,你就会发现这有多难——需要多少细小零件、多少数据集成、多少检查、提示词需要多么精细地调优、模型选择需要多么审慎。当你花两年时间只做这件事,你会构建出别人无法复制的东西。所以不要害怕。