AI Agent 的前沿提示词工程

摘要
本文基于 Y Combinator 合伙人在 The Light Cone 节目中的深度讨论,系统梳理了当今顶尖 AI 初创公司在提示词工程 (Prompt Engineering) 方面的前沿实践。节目调研了十余家 AI 公司,揭示了 Parahelp 等垂直 AI Agent 公司的真实提示词架构——包括角色定义、任务拆解、步骤规划、输出格式规范及示例提供等关键要素。文章深入探讨了系统提示词 (System Prompt)、开发者提示词 (Developer Prompt) 与用户提示词 (User Prompt) 三层架构的设计理念,以及如何通过分叉与合并提示词来避免沦为咨询公司。元提示词 (Metaprompting) 作为当前最强大的技巧被重点讨论——让 LLM 自行优化自身提示词、通过调试信息 (Debug Info) 参数实现自我诊断、以及使用大模型优化提示词后蒸馏到小模型部署的实践。文章还揭示了评估集 (Evals) 才是 AI 公司真正的核心资产,而非提示词本身;并借 Palantir 的"前线部署工程师" (Forward Deployed Engineer) 模式,阐述了创始人应如何深入用户现场理解工作流、将领域知识编码为评估集和提示词。最后讨论了不同模型(Claude、Llama 4、o3、Gemini 2.5 Pro)的个性差异,以及改善 (Kaizen) 持续改进理念在元提示词中的应用。
正文
Parahelp:AI 客服的提示词实战
节目以 Parahelp 公司为典型案例展开讨论。Parahelp 从事 AI 客户支持 (AI Customer Support),目前为 Perplexity、Replit、Bolt 等顶尖 AI 公司提供客服 Agent。当用户向 Perplexity 发送客服工单 (Support Ticket) 时,实际回复的是 Parahelp 的 AI Agent。Parahelp 团队慷慨同意公开其核心提示词,这在垂直 AI Agent 领域极为罕见,因为提示词通常被视为公司的"皇冠上的宝石" (Crown Jewels)。
顶级提示词的结构要素
Diana 逐层分析了 Parahelp 的提示词结构。这份提示词长达六页,包含以下关键要素:
角色定义 (Role Setup):提示词开头明确设定 LLM 的角色——"你是一个客户服务 Agent 的管理者",并以要点形式列出职责。
任务描述 (Task):明确 Agent 的核心任务是批准或拒绝工具调用 (Tool Call),因为它是一个编排型 Agent,负责协调其他子 Agent 的调用。
高层规划 (High-Level Plan):将任务拆解为具体的步骤一、二、三、四、五,逐步引导 Agent 的推理过程。
重要约束 (Important Considerations):明确 Agent 不应该偏离任务去调用无关工具,防止 Agent "走偏"。
输出格式 (Output Format):由于 Agent 需要与其他 Agent 集成,本质上是"胶水"般粘合 API 调用,因此必须严格指定输出格式——接受或拒绝,以及具体格式规范。
示例 (Examples):最好的提示词不仅解释如何推理任务,还会给出完整的示例输出。
XML 标签格式与 Markdown 结构
Parahelp 的提示词大量使用 Markdown 风格的标题和子标题来组织结构,并采用 XML 标签格式来指定计划内容。这并非偶然——研究发现 LLM 在处理 XML 格式输入时表现更好,因为许多 LLM 在后训练阶段经过了基于人类反馈的强化学习 (RLHF, Reinforcement Learning from Human Feedback) 的训练,其中使用了 XML 类型的输入格式。使用 XML 标签能让模型更准确地遵循指令。
系统提示词、开发者提示词与用户提示词的三层架构
Jared 指出了一个正在浮现的提示词架构模式:
- 系统提示词 (System Prompt):定义公司运营的高层"API",是通用逻辑,不包含任何特定客户的信息。Parahelp 展示的就是系统提示词。
- 开发者提示词 (Developer Prompt):包含客户特定的上下文。例如为 Perplexity 处理工单时,RAG(检索增强生成)问题的处理方式与为 Bolt 处理时完全不同,这些差异注入开发者提示词。
- 用户提示词 (User Prompt):面向终端用户的输入,如 Replit 或 V0 中用户输入"生成一个包含这些按钮的网站"等指令。Parahelp 没有用户提示词,因为其产品不直接面向终端用户。
避免成为咨询公司:提示词的分叉与合并
垂直 AI Agent 公司面临一个关键挑战:如何在不变成咨询公司(为每个客户从头构建新提示词)的前提下,提供足够的灵活性来满足定制化需求。Jared 提出了"提示词分叉与合并" (Forking and Merging Prompts) 的概念——哪些部分是客户特定的,哪些是公司通用的,这是业界刚开始探索的有趣问题。
自动化工具有望解决这一矛盾。理想状态下,Agent 能自动从客户数据中提取最佳示例,并自动注入到提示词流水线的正确位置,无需人工干预。
元提示词:让 AI 优化自身
元提示词 (Metaprompting) 是当前最强大的提示词工程技巧之一,其核心理念是让一个提示词动态生成更好的自身版本。
Tropier 是当前 YC 批次中的一家公司,他们帮助 YC 公司 Ducky 等深入理解和调试多阶段工作流中的提示词和返回值。其核心创新之一是提示词折叠 (Prompt Folding):一个分类器提示词可以根据前一个查询动态生成专门的提示词。用户可以将现有提示词输入 LLM,附上失败案例,让 LLM 自动优化——因为 LLM "如此了解自己",元提示词的效果出奇地好。
Jasberry 则展示了另一种元提示词模式:自动代码缺陷检测。他们向提示词中注入只有专家程序员才能发现的难题示例(如 N+1 查询问题),让 LLM 基于这些示例来推理和检测。当任务过于复杂以至于难以用自然语言精确描述时,直接给出示例反而效果更好——这类似于软件开发中的测试驱动开发 (TDD, Test-Driven Development)。
LLM 的逃生出口:防止幻觉
Tropier 还发现了一个关键问题:LLM 非常想帮助用户,以至于当要求以特定格式输出时,即使没有足够信息,它也会编造答案——这本质上就是幻觉 (Hallucination)。解决方案是给 LLM 一个真正的"逃生出口" (Escape Hatch):明确告诉它"如果没有足够信息做出判断,不要编造,停下来问我"。
YC 内部也采用了类似但不同的方法:在响应格式中设置一个"调试信息" (Debug Info) 参数,允许 LLM 向开发者"抱怨"——报告哪些指令令人困惑或不够明确。当 Agent 在生产环境中运行时,开发者可以查看这些调试信息,它本质上变成了一个待办事项列表 (To-Do List),列出需要修复的问题。
大模型优化、小模型部署
一种常见模式是:先用大型模型(数百亿参数级别,如 Claude 3.7、GPT o3)进行元提示词优化,得到高质量的提示词后,再将其部署到蒸馏模型 (Distilled Model) 上运行。这在语音 AI Agent 场景中尤为重要,因为延迟 (Latency) 是通过图灵测试 (Turing Test) 的关键——人类能察觉到过长的停顿。使用更快的小模型搭配经过大模型优化的优质提示词,可以在速度和质量之间取得平衡。
利用思维链追踪调试提示词
Gemini 2.5 Pro 的超长上下文窗口 (Long Context Window) 使其可以被当作一个 REPL(读取-求值-输出循环)来使用:将提示词和一个示例输入,实时观察推理追踪 (Reasoning Trace),从而判断如何引导模型朝期望方向输出。思维链追踪 (Thinking Traces) 是调试提示词的关键信息——它揭示了模型为什么做出某个决策。Gemini 最近将思维链追踪加入了 API,开发者可以将其管道化引入开发工具和工作流中。
YC 的数据负责人 Eric Bacon 在元提示词和使用 Gemini Pro 2.5 作为 REPL 方面做出了重要贡献。另一种实用的调试方法是在 Google Doc 中记录观察到的输出偏差,然后将笔记连同原始提示词一起交给 Gemini Pro,让它建议具体的修改——效果很好。
评估集:AI 公司的真正核心资产
Parahelp 愿意公开提示词的原因是他们并不认为提示词是核心资产——评估集 (Evals) 才是。没有评估集,你无法理解提示词为什么被写成那个样子,更难以改进它。
Gary 用一个生动的例子说明了评估集的价值:YC 投资了大量垂直 AI 和 SaaS 公司,要获得评估集,你必须亲自坐在做具体知识工作的人旁边。你需要坐在内布拉斯加州的拖拉机销售区域经理旁边,了解这个人关心什么、如何获得晋升、他的奖励函数 (Reward Function) 是什么——然后将这些面对面互动中获得的领域知识编码为非常具体的评估集。这种深入用户现场的理解能力,就是初创公司的护城河 (Moat)。
前线部署工程师:从 Palantir 到 AI 创业
"前线部署工程师" (Forward Deployed Engineer) 这个概念源自 Palantir。Palantir 的创始团队(Peter Thiel、Alex Karp、Stephen Cohen、Joe Lonsdale、Nathan Gettings)的核心洞察是:走进任何财富 500 强公司或政府机构,你永远找不到既精通计算机科学技术又身处那个房间的人。这些机构面临着数十亿甚至万亿美元级别的问题,拥有海量数据却不知如何利用。
前线部署工程师的核心工作就是坐在 FBI 探员旁边,观察案件如何进入、所有步骤是什么、提交给联邦检察官的材料是什么格式。然后将文件柜和传真机般的手工流程转化为干净的软件。Palantir 与众不同之处在于:其他公司派销售人员去,而 Palantir 派工程师去。这意味着下次会议不是审查 50 页销售文档,而是"我们建好了"——在几天内就获得真实反馈。
走出 Palantir 的前线部署工程师们现在正在成为 YC 最优秀的创始人,因为这种训练恰恰是 AI 时代创业者最需要的。
创始人就是自己的前线部署工程师
今天的 AI 创业者必须将自身视为公司的前线部署工程师。创始人必须亲自深入用户现场——不能将这项工作外包。创始人必须是技术专家、产品人、民族志研究者 (Ethnographer) 和设计师。第二次会议时,用户应该看到你基于上次会议内容做的演示,然后说出"我从未见过这样的东西"。
这正是垂直 AI Agent 公司起飞的原因:两位创始人走进企业,与终端买家和倡导者 (Champion) 会面,将上下文编码到提示词中,第二天就带着改进后的产品回来,然后签下六位数甚至七位数的大单——这在以前从未可能。
Giger ML(语音客服支持)和 Happy Robot(物流经纪 AI 语音 Agent,已签下全球前三大物流经纪商的七位数合同)都是这一模式的成功案例。在 LLM 时代,你不再需要通过"稍微好一点的 CRM 和更好看的 UI"来击败 Salesforce——你作为前线部署工程师深入客户,第一次会议后调整产品使其对该客户完美运作,第二次会议展示演示,客户就会说出"从未见过其他公司能做到这一点",然后当场签约。
不同模型的个性差异
不同 AI 模型展现出截然不同的"个性",这影响着提示词工程的策略选择:
- Claude 被认为是最容易引导 (Steerable)、最具人性化交互感的模型。
- Llama 4 需要更多的引导——它更像在与一个未经充分 RLHF 训练的开发者对话,比较粗犷,但如果擅长编写详细提示词,实际上可以很好地引导它。
- o3 在使用评分量规 (Rubric) 时表现得非常刻板,严格遵循规则,对不符合量规的情况重度扣分。
- Gemini 2.5 Pro 则更加灵活,能够应用量规的同时识别例外情况,更像一个高自主性的员工。
YC 内部使用 LLM 帮助创始人判断应该接受谁的投资时发现,给不同模型同一份 0-100 分的评分量规,o3 严格执行量规,而 Gemini 2.5 Pro 能够灵活地推理例外情况——就像训练一个人时,你希望他把量规当作指南,但面对边缘情况时能深入思考。
改善与元提示词
节目最后将元提示词与日本的改善 (Kaizen) 理念联系起来。改善是日本制造业在 90 年代创造卓越汽车的生产哲学,其核心原则是:最擅长改进流程的人,是实际执行该流程的人。这正是元提示词的本质——让使用提示词的人(或 LLM 自身)持续改进提示词,实现持续迭代优化。
元提示词既像 1995 年的编程——工具尚未完善,充满未定义的领域,身处新前沿;又像学习管理一个人——如何传达他们需要知道的信息以做出好决策,如何让他们知道你将如何评估和打分。这是一个全新的领域,正等待着创业者们去探索和定义。