为什么垂直领域大模型代理是新的十亿美元SaaS机遇

一句话结论

CaseText 创始人 Jake Heller 用亲身经历证明:垂直领域 AI 代理的价值不在于套壳 LLM,而在于将"70% 的演示可用"推进到"100% 的生产可靠"——通过测试驱动开发式的提示工程、将复杂任务拆解为十多个子步骤、为每个步骤编写数百到数千条黄金标准测试用例。法律 AI 助理 CoCounsel 在 GPT-4 发布前秘密研发数月,上线仅两个月便启动收购谈判,最终以 6.5 亿美元卖给了汤森路透。垂直领域的专有数据、工作流集成和领域知识构成的护城河,远比提示策略本身更难复制。

来源信息

Executive Summary

本期光锥播客邀请 CaseText 创始人 Jake Heller 深度分享。Jake 兼具律师与工程师双重背景,创办 CaseText 的十二年间,前十年在"想法迷宫"中摸索——从 UGC 判例注释平台到 NLP/ML 自动化数据库,多次尝试始终未触达真正的产品市场契合。GPT-4 的出现改变了这一切。提前数月获得访问权后,Jake 用 48 小时做出全公司转向的决策,在一周半内完成原型,然后将全公司 120 人全部投入 CoCounsel 的研发。CoCounsel 能阅读分析海量文档、进行法律研究并撰写带引用的备忘录,准确度达到了保守法律行业信赖的水平。

Jake 揭示了垂直 AI 代理真正的工程壁垒:基于测试驱动开发的提示工程方法论——将法律研究拆解为十多个子步骤,每个步骤编写数百到数千条黄金标准测试用例,不断迭代英文指令直到模型在测试集上达到近乎完美的通过率。他同时强调,在提示工程之前还有大量系统整合工作(DMS 连接、OCR 微调、专有数据标注等),这些"脏活"和领域知识构成了更难以复制的护城河。Jake 还对 OpenAI o1 模型的"系统二"慢思考能力表示兴奋,认为若能将顶级律师的思维框架注入模型思考过程,将为垂直 AI 代理带来新的质变。

一、从法律科技的十年跋涉到 GPT-4 的"登月"时刻

Jake 被主持人称为"第一个登上月球的人"。他以律师兼工程师身份创办 CaseText,使命是用更好的技术改变法律行业。律师常受困于糟糕的技术——为找关键证据在地下室逐页翻纸质文件,或使用连 Ctrl+F 都没有的古老数据库。Jake 曾在律所内开发浏览器插件提高效率,却因此惹恼了法务总监,最终促使他创业。[raw L13-L15]

最初十年是漫长的跋涉。团队先尝试类 Wikipedia/Stack Overflow 的 UGC 判例注释平台——失败,因为按小时计费的律师没有多余时间无偿贡献。随后转向 NLP/ML,通过自动化构建判例数据库并开发引用关系推荐。这些渐进式改进难以打动年收入 500 万美元的资深律师——他们既不想改变习惯,也担心效率提升会影响按小时计费的收入。直到 ChatGPT 问世,律师们开始主动致电 Jake 迫切了解 AI 将如何改变工作。此时 CaseText 已悄悄获得 GPT-4 的早期访问权。[raw L15]

二、48 小时的决断与 CoCounsel 的诞生

GPT-3 和 3.5 虽然能生成像律师口吻的文本,但幻觉严重——在法律领域几乎无法使用。GPT-4 完全不同:在禁用训练集的律师资格考试中,它从只超过 10% 考生的 GPT-3.5 一跃击败 90% 应试者。当 Jake 看到模型能精准引用给定材料、撰写出合格法律备忘录时,知道"这跟以前完全不一样了"。[raw L17]

Jake 经历了"存在主义危机"后展现出了非凡的"创始人模式":用 48 小时下定决心,花一周半亲自敲下第一版代码,仅限自己和联合创始人知晓。在一次高管会议上,他打断原定销售目标讨论,展示了这个"几乎可以像新员工一样对话并分配任务"的 AI 法律助理设想。尽管公司当时有约两千万美元 ARR 且增速不错,Jake 通过以身作则和让早期客户参与实时视频通话——用客户震惊而兴奋的神情统一了思想。在 GPT-4 公测前的几个月里,全公司 120 人几乎不眠不休投入开发,因为他们清楚自己正获得一个在市场上遥遥领先的窗口。[raw L20-L22]

三、测试驱动开发式的提示工程:从 70% 到 100%

批评者会说"这只是 GPT 套壳"。Jake 指出,从"几乎能用"(70% 的情况)到"完全能用"(100%)的差距,恰恰是垂直 AI 代理真正的价值和壁垒所在。在法律领域,一次错误引用或关键事实遗漏可能导致灾难性后果,因此"必须让律师在第一次接触和第一周内获得完美体验"。[raw L24-L26]

Jake 团队的方法极具软件工程色彩:测试驱动开发的提示工程。他们将"法律研究并撰写备忘录"拆解为十多个子步骤——如何将自然语言查询转化为布尔搜索语句、如何对上百个结果逐一阅读摘要提炼、如何整合成带引用的备忘录。针对每个子步骤,团队编写数百到数千条测试用例,预先定义"黄金标准"答案。提示工程师不断撰写完善英文指令,直到模型在测试集上达到接近完美的通过率。一旦某个指令修正解决了一个问题却破坏了其他测试,必须重新调整——这使得测试的重要性放大十倍。[raw L26-L28]

四、垂直 AI 代理的深层护城河

很多人低估构建完整垂直应用的投资。Jake 强调,在提示工程之前还有大量"脏活":CoCounsel 需要连接客户专有的 DMS 系统,处理手写批注、歪斜扫描页甚至四页合一的奇葩缩印——涉及 OCR 软件选择与微调。CaseText 还构建了自己的法律数据集和自动标注层,这些专有数据本身就是护城河。所有系统整合、数据清洗和边缘案例处理构成应用基础,使最终提示策略和测试框架难以被轻易复制。[raw L30-L32]

五、对 OpenAI o1 模型:向"如何思考"迈进

Jake 分享了对 o1 的初测:给模型 40 多页律师简报,将某些引用措辞做微小篡改(将"并且"改为"既不……也不"),让 AI 找出错误。此前所有 LLM 都无法察觉,而 o1 能立刻识别。o1 展示了可感知的"思考过程"——停顿数十秒后给出深刻精确的分析。Jake 推测 o1 的能力提升可能源于训练数据中不仅包含"输入-输出"对,还包含了人类思考的内在独白。他正尝试一种新提示策略:教模型"如何思考"——将顶级律师的思维框架注入模型的思考过程。[raw L34-L36]

关键证据

涉及概念

涉及人物

涉及公司

可沉淀到哪些主题页

不确定事项

Change Log