为什么垂直领域大模型代理是新的十亿美元SaaS机遇

cover

摘要

在本期《光锥》节目中,Y Combinator的合伙人Gary、Jared和Diana邀请了CaseText的创始人兼CEO Jake Heller。Jake是一位具有法律和计算机科学双重背景的创业者,他创办的CaseText在长达十年的时间里,一直致力于用技术改进法律工作流程,但始终未达到真正的产品市场契合(Product-Market Fit)。转折点发生在GPT-4发布前数月,Jake有幸提前接触到这款模型,他立刻意识到这是一场颠覆性的变革。在48小时内,他做出了一个大胆的决定:让全公司120名员工全部转向,基于GPT-4打造一款全新的AI法律助理——CoCounsel。CoCounsel不仅能阅读和分析海量文档、进行法律研究并撰写备忘录,而且其准确度达到了足以让保守的法律行业信赖的水平。产品一经推出便引爆市场,短短两个月内就启动了与汤森路透(Thomson Reuters)的收购谈判,最终以6.5亿美元的价格实现了退出。Jake在对话中深入分享了他在构建垂直领域AI代理过程中的关键经验:如何通过“测试驱动开发”式的提示工程(Prompt Engineering)将模型准确率从70%提升至接近100%,如何将复杂的法律任务拆解为一系列可控的步骤,以及为何垂直领域深厚的专有数据、工作流集成和领域知识构成了难以复制的护城河。他还对OpenAI的新模型o1表达了兴奋之情,认为其展现的“系统二”慢思考能力或许将开启新的可能。这场对话为所有正在垂直领域构建AI代理的创始人提供了极具价值的路线图。

正文

从法律科技的十年跋涉到GPT-4的“登月”时刻

Jake Heller被主持人称为“第一个登上月球的人”,因为他的创业故事完美诠释了颠覆性技术如何让长期在“想法迷宫”中摸索的创始人瞬间找到产品市场契合。12年前,Jake以律师兼工程师的身份创办了CaseText,使命是用更好的技术改变法律行业。律师们常受困于糟糕的技术:为了寻找能帮客户脱罪或打赢天价官司的关键证据,他们不得不在地下室里逐页翻阅成箱的纸质文件,或者使用极其笨拙的早期法律数据库——连“Ctrl+F”搜索都做不到。Jake曾因在律所内部开发浏览器插件来提高效率而惹恼了法务总监,最终促使他离开并创立了CaseText。

然而,最初的十年更像是一场漫长的跋涉。团队曾试图打造一个类似维基百科或Stack Overflow的UGC(用户生成内容)平台,让律师们为判例法添加注释,但这个模式彻底失败了——按小时计费的律师根本没有多余时间去无偿贡献内容。随后,他们转向当时还未被称为“人工智能(AI)”的自然语言处理(NLP)和机器学习(ML),通过自动化手段逐步构建起自己的判例数据库,并开发出能根据引用关系推荐相关案件的实用功能。这些改进虽然是渐进的,却总是难以打动那些年收入500万美元的资深律师,他们既不想改变习惯,也担心效率提升会影响按小时计费的收入。直到ChatGPT问世,市场的认知被彻底颠覆——律师们开始主动致电Jake,迫切希望了解AI将如何改变他们的工作。这时,CaseText已经悄然获得了GPT-4的早期访问权限。

48小时的决断与CoCounsel的诞生

Jake永远不会忘记第一次看到GPT-4的那个周末。在那之前,他们已测试过多个前期版本:GPT-3和3.5虽然能生成像律师口吻的文本,但会严重地“幻觉”(Hallucination,指模型编造事实),在法律这种对事实准确性要求极高的领域几乎无法使用。GPT-4则完全不同——在禁用训练集的全新律师资格考试中,它从一个只超过10%考生的GPT-3.5,一跃击败了90%的应试者。当Jake和团队看到模型能够精准引用给定材料、撰写出合格的法律备忘录时,他们知道“这跟以前完全不一样了”。

那一刻,Jake经历了与客户后来一样的“存在主义危机”,并随即展现出非凡的“创始人模式(Founder Mode)”。他用了48小时下定决心,然后花了一周半时间亲自敲下第一版代码,在仅限自己和联合创始人知晓的情况下做出了原型。紧接着的一次高管会议上,他直接打断了原定的销售目标讨论,在笔记本上向大家展示了这个“几乎可以像新员工一样对话并分配任务”的AI法律助理设想。尽管内部不乏疑虑——毕竟公司当时有约2千万美元的年经常性收入(ARR),增速也不错——Jake通过以身作则和让早期客户参与实时视频通话,用客户们震惊而兴奋的神情迅速统一了思想。在GPT-4正式公测前的几个月里,全公司120人几乎不眠不休地投入开发,因为他们清楚自己正获得一个在市场上遥遥领先的绝佳窗口。

如何打造律师敢用的100%准确率:测试驱动的提示工程

对于许多批评者来说,这种技术“只是一个GPT套壳”,而且幻觉太多、不够准确。但Jake指出,将一个从在演示中“几乎能用”(70%的情况)到在生产环境中“完全能用”(100%)的差距,恰恰是垂直AI代理真正的价值和壁垒所在。在法律这种高风险领域,一次错误的引用或对关键事实的遗漏都可能导致灾难性后果,因此“你必须让律师在第一次接触和第一周内就获得完美体验,否则他们不会再给第二次机会”。

Jake团队采用的方法极具软件工程色彩:测试驱动开发(Test-Driven Development)式的提示工程。他们将“进行法律研究并撰写备忘录”这类复杂任务,拆解成律师实际工作流程中的十多个甚至二十多个子步骤。例如,如何将自然语言查询转化为一系列精确的布尔搜索语句,如何对返回的上百个结果进行逐一阅读、摘要和要点提炼,最后再整合成带引用的备忘录。针对每一个子步骤,团队都会编写数百甚至数千条测试用例,预先定义好“黄金标准”答案。提示工程师们(Jake也是其中一员)不断撰写和完善英文指令,直到模型能在测试集上达到接近完美的通过率。一旦发现某个指令修正虽然解决了一个问题却又破坏了其他测试,就必须重新调整,这使得测试的重要性放大了十倍。正是这种将法律专家的思维过程“翻译”成LLM可执行的、层层递进的指令链,才将幻觉降到最低,让模型具备了处理真实法律任务的能力。

垂直AI代理的深层护城河:远不止于提示

很多人低估了构建一个完整垂直应用的投资。Jake强调,在Prompt工程之前,还有大量“脏活”要做。CoCounsel需要连接客户专有的法律文档管理系统(DMS),处理那些手写批注、歪斜扫描页,甚至是四页合一页的奇葩缩印格式——这里就涉及到光学字符识别(OCR)软件的选择与微调。CaseText还构建了自己的法律数据集和自动标注层,这些专有数据本身就是护城河。所有这些系统整合、数据清洗和边缘案例处理构成了应用的基础,使得最终的提示策略和测试框架难以被轻易复制。Jake打了个比方:很多成功的SaaS公司本质上只是一个数据库之上的业务逻辑封装,真正的价值在于它将技术小白无法操作的事情变得可及,并且能稳定运行。垂直AI代理遵循同样的逻辑,甚至要求更高。

对OpenAI o1模型的初探:向“如何思考”迈进

在节目的最后,话题转向了数天前刚刚发布的OpenAI o1模型。Jake分享了一个有趣的测试:他们给模型一份40多页的律师简报,并在其中将某些引用的措辞做了极其微小的篡改(比如将“并且”改为“既不……也不”),再提供案件全文,让AI找出律师的错误。在此之前,所有LLM都无法察觉这类精微的语义变化,而o1则能立刻识别。o1展示了那种可感知的“思考过程”——它会停顿数十秒,然后给出深刻且精确的分析。这与Jake将复杂任务拆解为多个步骤的方法论不谋而合。

Jake推测,o1的能力提升可能源于其训练数据中不仅包含了“输入-输出”对,还包含了人类思考解决问题的内在独白。他正在尝试一种新的提示策略:不仅告诉o1何为正确答案,更尝试“教它如何思考”——将顶级律师的思维框架注入模型的思考过程中。虽然为时尚早,但如果可行,这将为垂直领域的AI代理带来又一次质的飞跃。他最后鼓励所有创业者,不要因为那些“幻觉太多、不够准确”的陈词滥调而放弃,因为像法律这样今天仍耗费数百万美元人力、逐页查阅文档的领域,哪怕能用AI完成其中80%的工作,其价值都是巨大的。而人类并不会因此失业,他们将从枯燥的劳动中解放出来,去做更具战略性和创造性的工作。