AI Agent 的前沿提示词工程

cover

摘要

本文基于 Y Combinator 合伙人在 The Light Cone 节目中的深度讨论，系统梳理了当今顶尖 AI 初创公司在提示词工程 (Prompt Engineering) 方面的前沿实践。节目调研了十余家 AI 公司，揭示了 Parahelp 等垂直 AI Agent 公司的真实提示词架构——包括角色定义、任务拆解、步骤规划、输出格式规范及示例提供等关键要素。文章深入探讨了系统提示词 (System Prompt)、开发者提示词 (Developer Prompt) 与用户提示词 (User Prompt) 三层架构的设计理念，以及如何通过分叉与合并提示词来避免沦为咨询公司。元提示词 (Metaprompting) 作为当前最强大的技巧被重点讨论——让 LLM 自行优化自身提示词、通过调试信息 (Debug Info) 参数实现自我诊断、以及使用大模型优化提示词后蒸馏到小模型部署的实践。文章还揭示了评估集 (Evals) 才是 AI 公司真正的核心资产，而非提示词本身；并借 Palantir 的"前线部署工程师" (Forward Deployed Engineer) 模式，阐述了创始人应如何深入用户现场理解工作流、将领域知识编码为评估集和提示词。最后讨论了不同模型（Claude、Llama 4、o3、Gemini 2.5 Pro）的个性差异，以及改善 (Kaizen) 持续改进理念在元提示词中的应用。

正文

Parahelp：AI 客服的提示词实战

节目以 Parahelp 公司为典型案例展开讨论。Parahelp 从事 AI 客户支持 (AI Customer Support)，目前为 Perplexity、Replit、Bolt 等顶尖 AI 公司提供客服 Agent。当用户向 Perplexity 发送客服工单 (Support Ticket) 时，实际回复的是 Parahelp 的 AI Agent。Parahelp 团队慷慨同意公开其核心提示词，这在垂直 AI Agent 领域极为罕见，因为提示词通常被视为公司的"皇冠上的宝石" (Crown Jewels)。

顶级提示词的结构要素

Diana 逐层分析了 Parahelp 的提示词结构。这份提示词长达六页，包含以下关键要素：

角色定义 (Role Setup)：提示词开头明确设定 LLM 的角色——"你是一个客户服务 Agent 的管理者"，并以要点形式列出职责。

任务描述 (Task)：明确 Agent 的核心任务是批准或拒绝工具调用 (Tool Call)，因为它是一个编排型 Agent，负责协调其他子 Agent 的调用。

高层规划 (High-Level Plan)：将任务拆解为具体的步骤一、二、三、四、五，逐步引导 Agent 的推理过程。

重要约束 (Important Considerations)：明确 Agent 不应该偏离任务去调用无关工具，防止 Agent "走偏"。

输出格式 (Output Format)：由于 Agent 需要与其他 Agent 集成，本质上是"胶水"般粘合 API 调用，因此必须严格指定输出格式——接受或拒绝，以及具体格式规范。

示例 (Examples)：最好的提示词不仅解释如何推理任务，还会给出完整的示例输出。

XML 标签格式与 Markdown 结构

Parahelp 的提示词大量使用 Markdown 风格的标题和子标题来组织结构，并采用 XML 标签格式来指定计划内容。这并非偶然——研究发现 LLM 在处理 XML 格式输入时表现更好，因为许多 LLM 在后训练阶段经过了基于人类反馈的强化学习 (RLHF, Reinforcement Learning from Human Feedback) 的训练，其中使用了 XML 类型的输入格式。使用 XML 标签能让模型更准确地遵循指令。

系统提示词、开发者提示词与用户提示词的三层架构

Jared 指出了一个正在浮现的提示词架构模式：

系统提示词 (System Prompt)：定义公司运营的高层"API"，是通用逻辑，不包含任何特定客户的信息。Parahelp 展示的就是系统提示词。
开发者提示词 (Developer Prompt)：包含客户特定的上下文。例如为 Perplexity 处理工单时，RAG（检索增强生成）问题的处理方式与为 Bolt 处理时完全不同，这些差异注入开发者提示词。
用户提示词 (User Prompt)：面向终端用户的输入，如 Replit 或 V0 中用户输入"生成一个包含这些按钮的网站"等指令。Parahelp 没有用户提示词，因为其产品不直接面向终端用户。

避免成为咨询公司：提示词的分叉与合并

垂直 AI Agent 公司面临一个关键挑战：如何在不变成咨询公司（为每个客户从头构建新提示词）的前提下，提供足够的灵活性来满足定制化需求。Jared 提出了"提示词分叉与合并" (Forking and Merging Prompts) 的概念——哪些部分是客户特定的，哪些是公司通用的，这是业界刚开始探索的有趣问题。

自动化工具有望解决这一矛盾。理想状态下，Agent 能自动从客户数据中提取最佳示例，并自动注入到提示词流水线的正确位置，无需人工干预。

元提示词：让 AI 优化自身

元提示词 (Metaprompting) 是当前最强大的提示词工程技巧之一，其核心理念是让一个提示词动态生成更好的自身版本。

Tropier 是当前 YC 批次中的一家公司，他们帮助 YC 公司 Ducky 等深入理解和调试多阶段工作流中的提示词和返回值。其核心创新之一是提示词折叠 (Prompt Folding)：一个分类器提示词可以根据前一个查询动态生成专门的提示词。用户可以将现有提示词输入 LLM，附上失败案例，让 LLM 自动优化——因为 LLM "如此了解自己"，元提示词的效果出奇地好。

Jasberry 则展示了另一种元提示词模式：自动代码缺陷检测。他们向提示词中注入只有专家程序员才能发现的难题示例（如 N+1 查询问题），让 LLM 基于这些示例来推理和检测。当任务过于复杂以至于难以用自然语言精确描述时，直接给出示例反而效果更好——这类似于软件开发中的测试驱动开发 (TDD, Test-Driven Development)。

LLM 的逃生出口：防止幻觉

Tropier 还发现了一个关键问题：LLM 非常想帮助用户，以至于当要求以特定格式输出时，即使没有足够信息，它也会编造答案——这本质上就是幻觉 (Hallucination)。解决方案是给 LLM 一个真正的"逃生出口" (Escape Hatch)：明确告诉它"如果没有足够信息做出判断，不要编造，停下来问我"。

YC 内部也采用了类似但不同的方法：在响应格式中设置一个"调试信息" (Debug Info) 参数，允许 LLM 向开发者"抱怨"——报告哪些指令令人困惑或不够明确。当 Agent 在生产环境中运行时，开发者可以查看这些调试信息，它本质上变成了一个待办事项列表 (To-Do List)，列出需要修复的问题。

大模型优化、小模型部署

一种常见模式是：先用大型模型（数百亿参数级别，如 Claude 3.7、GPT o3）进行元提示词优化，得到高质量的提示词后，再将其部署到蒸馏模型 (Distilled Model) 上运行。这在语音 AI Agent 场景中尤为重要，因为延迟 (Latency) 是通过图灵测试 (Turing Test) 的关键——人类能察觉到过长的停顿。使用更快的小模型搭配经过大模型优化的优质提示词，可以在速度和质量之间取得平衡。

利用思维链追踪调试提示词

Gemini 2.5 Pro 的超长上下文窗口 (Long Context Window) 使其可以被当作一个 REPL（读取-求值-输出循环）来使用：将提示词和一个示例输入，实时观察推理追踪 (Reasoning Trace)，从而判断如何引导模型朝期望方向输出。思维链追踪 (Thinking Traces) 是调试提示词的关键信息——它揭示了模型为什么做出某个决策。Gemini 最近将思维链追踪加入了 API，开发者可以将其管道化引入开发工具和工作流中。

YC 的数据负责人 Eric Bacon 在元提示词和使用 Gemini Pro 2.5 作为 REPL 方面做出了重要贡献。另一种实用的调试方法是在 Google Doc 中记录观察到的输出偏差，然后将笔记连同原始提示词一起交给 Gemini Pro，让它建议具体的修改——效果很好。

评估集：AI 公司的真正核心资产

Parahelp 愿意公开提示词的原因是他们并不认为提示词是核心资产——评估集 (Evals) 才是。没有评估集，你无法理解提示词为什么被写成那个样子，更难以改进它。

Gary 用一个生动的例子说明了评估集的价值：YC 投资了大量垂直 AI 和 SaaS 公司，要获得评估集，你必须亲自坐在做具体知识工作的人旁边。你需要坐在内布拉斯加州的拖拉机销售区域经理旁边，了解这个人关心什么、如何获得晋升、他的奖励函数 (Reward Function) 是什么——然后将这些面对面互动中获得的领域知识编码为非常具体的评估集。这种深入用户现场的理解能力，就是初创公司的护城河 (Moat)。

前线部署工程师：从 Palantir 到 AI 创业

"前线部署工程师" (Forward Deployed Engineer) 这个概念源自 Palantir。Palantir 的创始团队（Peter Thiel、Alex Karp、Stephen Cohen、Joe Lonsdale、Nathan Gettings）的核心洞察是：走进任何财富 500 强公司或政府机构，你永远找不到既精通计算机科学技术又身处那个房间的人。这些机构面临着数十亿甚至万亿美元级别的问题，拥有海量数据却不知如何利用。

前线部署工程师的核心工作就是坐在 FBI 探员旁边，观察案件如何进入、所有步骤是什么、提交给联邦检察官的材料是什么格式。然后将文件柜和传真机般的手工流程转化为干净的软件。Palantir 与众不同之处在于：其他公司派销售人员去，而 Palantir 派工程师去。这意味着下次会议不是审查 50 页销售文档，而是"我们建好了"——在几天内就获得真实反馈。

走出 Palantir 的前线部署工程师们现在正在成为 YC 最优秀的创始人，因为这种训练恰恰是 AI 时代创业者最需要的。

创始人就是自己的前线部署工程师

今天的 AI 创业者必须将自身视为公司的前线部署工程师。创始人必须亲自深入用户现场——不能将这项工作外包。创始人必须是技术专家、产品人、民族志研究者 (Ethnographer) 和设计师。第二次会议时，用户应该看到你基于上次会议内容做的演示，然后说出"我从未见过这样的东西"。

这正是垂直 AI Agent 公司起飞的原因：两位创始人走进企业，与终端买家和倡导者 (Champion) 会面，将上下文编码到提示词中，第二天就带着改进后的产品回来，然后签下六位数甚至七位数的大单——这在以前从未可能。

Giger ML（语音客服支持）和 Happy Robot（物流经纪 AI 语音 Agent，已签下全球前三大物流经纪商的七位数合同）都是这一模式的成功案例。在 LLM 时代，你不再需要通过"稍微好一点的 CRM 和更好看的 UI"来击败 Salesforce——你作为前线部署工程师深入客户，第一次会议后调整产品使其对该客户完美运作，第二次会议展示演示，客户就会说出"从未见过其他公司能做到这一点"，然后当场签约。

不同模型的个性差异

不同 AI 模型展现出截然不同的"个性"，这影响着提示词工程的策略选择：

Claude 被认为是最容易引导 (Steerable)、最具人性化交互感的模型。
Llama 4 需要更多的引导——它更像在与一个未经充分 RLHF 训练的开发者对话，比较粗犷，但如果擅长编写详细提示词，实际上可以很好地引导它。
o3 在使用评分量规 (Rubric) 时表现得非常刻板，严格遵循规则，对不符合量规的情况重度扣分。
Gemini 2.5 Pro 则更加灵活，能够应用量规的同时识别例外情况，更像一个高自主性的员工。

YC 内部使用 LLM 帮助创始人判断应该接受谁的投资时发现，给不同模型同一份 0-100 分的评分量规，o3 严格执行量规，而 Gemini 2.5 Pro 能够灵活地推理例外情况——就像训练一个人时，你希望他把量规当作指南，但面对边缘情况时能深入思考。

改善与元提示词

节目最后将元提示词与日本的改善 (Kaizen) 理念联系起来。改善是日本制造业在 90 年代创造卓越汽车的生产哲学，其核心原则是：最擅长改进流程的人，是实际执行该流程的人。这正是元提示词的本质——让使用提示词的人（或 LLM 自身）持续改进提示词，实现持续迭代优化。

元提示词既像 1995 年的编程——工具尚未完善，充满未定义的领域，身处新前沿；又像学习管理一个人——如何传达他们需要知道的信息以做出好决策，如何让他们知道你将如何评估和打分。这是一个全新的领域，正等待着创业者们去探索和定义。