为什么垂直领域大模型代理是新的十亿美元SaaS机遇

cover

摘要

在本期《光锥》节目中，Y Combinator的合伙人Gary、Jared和Diana邀请了CaseText的创始人兼CEO Jake Heller。Jake是一位具有法律和计算机科学双重背景的创业者，他创办的CaseText在长达十年的时间里，一直致力于用技术改进法律工作流程，但始终未达到真正的产品市场契合（Product-Market Fit）。转折点发生在GPT-4发布前数月，Jake有幸提前接触到这款模型，他立刻意识到这是一场颠覆性的变革。在48小时内，他做出了一个大胆的决定：让全公司120名员工全部转向，基于GPT-4打造一款全新的AI法律助理——CoCounsel。CoCounsel不仅能阅读和分析海量文档、进行法律研究并撰写备忘录，而且其准确度达到了足以让保守的法律行业信赖的水平。产品一经推出便引爆市场，短短两个月内就启动了与汤森路透（Thomson Reuters）的收购谈判，最终以6.5亿美元的价格实现了退出。Jake在对话中深入分享了他在构建垂直领域AI代理过程中的关键经验：如何通过“测试驱动开发”式的提示工程（Prompt Engineering）将模型准确率从70%提升至接近100%，如何将复杂的法律任务拆解为一系列可控的步骤，以及为何垂直领域深厚的专有数据、工作流集成和领域知识构成了难以复制的护城河。他还对OpenAI的新模型o1表达了兴奋之情，认为其展现的“系统二”慢思考能力或许将开启新的可能。这场对话为所有正在垂直领域构建AI代理的创始人提供了极具价值的路线图。

正文

从法律科技的十年跋涉到GPT-4的“登月”时刻

Jake Heller被主持人称为“第一个登上月球的人”，因为他的创业故事完美诠释了颠覆性技术如何让长期在“想法迷宫”中摸索的创始人瞬间找到产品市场契合。12年前，Jake以律师兼工程师的身份创办了CaseText，使命是用更好的技术改变法律行业。律师们常受困于糟糕的技术：为了寻找能帮客户脱罪或打赢天价官司的关键证据，他们不得不在地下室里逐页翻阅成箱的纸质文件，或者使用极其笨拙的早期法律数据库——连“Ctrl+F”搜索都做不到。Jake曾因在律所内部开发浏览器插件来提高效率而惹恼了法务总监，最终促使他离开并创立了CaseText。

然而，最初的十年更像是一场漫长的跋涉。团队曾试图打造一个类似维基百科或Stack Overflow的UGC（用户生成内容）平台，让律师们为判例法添加注释，但这个模式彻底失败了——按小时计费的律师根本没有多余时间去无偿贡献内容。随后，他们转向当时还未被称为“人工智能（AI）”的自然语言处理（NLP）和机器学习（ML），通过自动化手段逐步构建起自己的判例数据库，并开发出能根据引用关系推荐相关案件的实用功能。这些改进虽然是渐进的，却总是难以打动那些年收入500万美元的资深律师，他们既不想改变习惯，也担心效率提升会影响按小时计费的收入。直到ChatGPT问世，市场的认知被彻底颠覆——律师们开始主动致电Jake，迫切希望了解AI将如何改变他们的工作。这时，CaseText已经悄然获得了GPT-4的早期访问权限。

48小时的决断与CoCounsel的诞生

Jake永远不会忘记第一次看到GPT-4的那个周末。在那之前，他们已测试过多个前期版本：GPT-3和3.5虽然能生成像律师口吻的文本，但会严重地“幻觉”（Hallucination，指模型编造事实），在法律这种对事实准确性要求极高的领域几乎无法使用。GPT-4则完全不同——在禁用训练集的全新律师资格考试中，它从一个只超过10%考生的GPT-3.5，一跃击败了90%的应试者。当Jake和团队看到模型能够精准引用给定材料、撰写出合格的法律备忘录时，他们知道“这跟以前完全不一样了”。

那一刻，Jake经历了与客户后来一样的“存在主义危机”，并随即展现出非凡的“创始人模式（Founder Mode）”。他用了48小时下定决心，然后花了一周半时间亲自敲下第一版代码，在仅限自己和联合创始人知晓的情况下做出了原型。紧接着的一次高管会议上，他直接打断了原定的销售目标讨论，在笔记本上向大家展示了这个“几乎可以像新员工一样对话并分配任务”的AI法律助理设想。尽管内部不乏疑虑——毕竟公司当时有约2千万美元的年经常性收入（ARR），增速也不错——Jake通过以身作则和让早期客户参与实时视频通话，用客户们震惊而兴奋的神情迅速统一了思想。在GPT-4正式公测前的几个月里，全公司120人几乎不眠不休地投入开发，因为他们清楚自己正获得一个在市场上遥遥领先的绝佳窗口。

如何打造律师敢用的100%准确率：测试驱动的提示工程

对于许多批评者来说，这种技术“只是一个GPT套壳”，而且幻觉太多、不够准确。但Jake指出，将一个从在演示中“几乎能用”（70%的情况）到在生产环境中“完全能用”（100%）的差距，恰恰是垂直AI代理真正的价值和壁垒所在。在法律这种高风险领域，一次错误的引用或对关键事实的遗漏都可能导致灾难性后果，因此“你必须让律师在第一次接触和第一周内就获得完美体验，否则他们不会再给第二次机会”。

Jake团队采用的方法极具软件工程色彩：测试驱动开发（Test-Driven Development）式的提示工程。他们将“进行法律研究并撰写备忘录”这类复杂任务，拆解成律师实际工作流程中的十多个甚至二十多个子步骤。例如，如何将自然语言查询转化为一系列精确的布尔搜索语句，如何对返回的上百个结果进行逐一阅读、摘要和要点提炼，最后再整合成带引用的备忘录。针对每一个子步骤，团队都会编写数百甚至数千条测试用例，预先定义好“黄金标准”答案。提示工程师们（Jake也是其中一员）不断撰写和完善英文指令，直到模型能在测试集上达到接近完美的通过率。一旦发现某个指令修正虽然解决了一个问题却又破坏了其他测试，就必须重新调整，这使得测试的重要性放大了十倍。正是这种将法律专家的思维过程“翻译”成LLM可执行的、层层递进的指令链，才将幻觉降到最低，让模型具备了处理真实法律任务的能力。

垂直AI代理的深层护城河：远不止于提示

很多人低估了构建一个完整垂直应用的投资。Jake强调，在Prompt工程之前，还有大量“脏活”要做。CoCounsel需要连接客户专有的法律文档管理系统（DMS），处理那些手写批注、歪斜扫描页，甚至是四页合一页的奇葩缩印格式——这里就涉及到光学字符识别（OCR）软件的选择与微调。CaseText还构建了自己的法律数据集和自动标注层，这些专有数据本身就是护城河。所有这些系统整合、数据清洗和边缘案例处理构成了应用的基础，使得最终的提示策略和测试框架难以被轻易复制。Jake打了个比方：很多成功的SaaS公司本质上只是一个数据库之上的业务逻辑封装，真正的价值在于它将技术小白无法操作的事情变得可及，并且能稳定运行。垂直AI代理遵循同样的逻辑，甚至要求更高。

对OpenAI o1模型的初探：向“如何思考”迈进

在节目的最后，话题转向了数天前刚刚发布的OpenAI o1模型。Jake分享了一个有趣的测试：他们给模型一份40多页的律师简报，并在其中将某些引用的措辞做了极其微小的篡改（比如将“并且”改为“既不……也不”），再提供案件全文，让AI找出律师的错误。在此之前，所有LLM都无法察觉这类精微的语义变化，而o1则能立刻识别。o1展示了那种可感知的“思考过程”——它会停顿数十秒，然后给出深刻且精确的分析。这与Jake将复杂任务拆解为多个步骤的方法论不谋而合。

Jake推测，o1的能力提升可能源于其训练数据中不仅包含了“输入-输出”对，还包含了人类思考解决问题的内在独白。他正在尝试一种新的提示策略：不仅告诉o1何为正确答案，更尝试“教它如何思考”——将顶级律师的思维框架注入模型的思考过程中。虽然为时尚早，但如果可行，这将为垂直领域的AI代理带来又一次质的飞跃。他最后鼓励所有创业者，不要因为那些“幻觉太多、不够准确”的陈词滥调而放弃，因为像法律这样今天仍耗费数百万美元人力、逐页查阅文档的领域，哪怕能用AI完成其中80%的工作，其价值都是巨大的。而人类并不会因此失业，他们将从枯燥的劳动中解放出来，去做更具战略性和创造性的工作。