微调的强大替代方案

摘要
本文基于 YC「光锥」(Light Cone) 节目对 Poetic 联合创始人兼联合 CEO Ian Fischer 的深度访谈,系统阐述了递归自我改进 (Recursive Self-Improvement) 作为一种全新范式,如何以远低于微调 (Fine-Tuning) 的成本让大语言模型 (LLM) 在各类硬问题上持续超越前沿模型。传统微调需要收集数万样本、耗费数亿算力,且成果往往被下一代基础模型 (Foundation Model) 瞬间碾压——这正是 Rich Sutton 所说的"苦涩教训" (Bitter Lesson)。Poetic 的核心洞察在于:不必重新训练模型,而是在一个或多个语言模型之上构建"推理缰绳" (Reasoning Harness),使其始终比底层模型更聪明;当新模型发布时,同一缰绳完美兼容,甚至获得更大性能跃升。Poetic 的元系统 (Meta System) 通过自动优化提示词 (Prompt)、推理策略和上下文填充 (Context Stuffing) 来生成这些缰绳,在 ARC-AGI V2 基准上以 Gemini 3 Pro 的一半成本将成绩从 45% 提升至 54%,在人类最后考试 (Humanity's Last Exam) 上以不到 10 万美元优化成本取得 55% 的成绩,超越 Claude Opus 4.6 的 53.1%。Ian 还分享了他从移动开发工具创业、被 Google 收购、在 DeepMind 潜心十年到创立 Poetic 的个人历程,并鼓励工程师每天用 AI 尝试新事物、不断探索能力边界。
正文
开场:AI 时代的行动号召
世界正在飞速变化。Ian Fischer 在节目开头便给出了一条朴素但有力的建议:每天都用 AI 做点事情,不断尝试,不断探索 AI 的能力边界。去年夏天,他花了一个周末用 GPT-5 帮自己构建了一个 iPhone 应用——这是他十年来第一次做这件事。而那还只是八个月前的事,如今速度和便捷程度又提升了一个量级。不要给自己设限,任何你能想象到的东西,都应该试着用 AI 去实现。
Poetic 是什么:递归自我改进的核心理念
Poetic 构建的是一个递归自我改进的系统。所谓递归自我改进,是 AI 领域的"圣杯"——让 AI 让自己变得更聪明。Poetic 的核心洞察在于,他们可以以远比现有方案更快、更便宜的方式实现递归自我改进。
目前大多数实现递归自我改进的方案都需要从头训练新的 LLM,而训练一个 LLM 从零开始需要数亿美元和数月时间。更关键的是,一旦你花了巨资微调出一个模型,Anthropic 或 OpenAI 的下一代模型就可能直接把你淘汰。这正是 Rich Sutton 所说的"苦涩教训":那些依赖人类先验知识的方案,终将被更大规模的通用计算方案超越。
缰绳 (Harness) 的概念:站在高跷上
Poetic 给用户提供的是一种"缰绳"——也可以称为代理系统 (Agentic System)——它架设在一个或多个语言模型之上,性能始终超越底层模型。当新一代模型发布时,同一套缰绳完全兼容,无需任何修改就能获得更大的性能提升。此外,Poetic 还可以针对新模型继续优化,进一步提升表现。
这个比喻非常形象:前沿模型是高跷 (Stilts),Poetic 让你站在高跷之上。不管什么样的模型发布,你都可以比它更高。Ian 强调,Poetic 不把前沿模型视为竞争对手——它们是 Poetic 赖以存在的基础层,没有它们,Poetic 也不可能存在。
传统微调的困境
如果没有 Poetic,一家初创公司面对硬问题的典型路径是:
- 首先收集大量数据集——数万个针对特定问题的样本
- 然后微调你能拿到的最好的模型——可能是某个前沿模型,也可能是某个开放权重 (Open Weights) 模型
- 在微调上花费大量算力费用
- 最终得到一个比原始模型稍好的结果——但此时新模型已经发布,直接超越了你辛苦微调的成果
Ian 举了一个极端的例子:如果你三年前在 GPT-3.5 上微调,等到 GPT-4o 发布时,你的成果直接被碾压。那么你是再花巨资重来一遍,还是直接关门?在很多情况下,答案是后者。
ARC-AGI V2:初露锋芒
Poetic 于去年十二月发表论文,宣告出隐身 (Stealth) 模式,结果直接登上 ARC-AGI V2 排行榜顶端。当时 Gemini 3 Deep Think 刚发布,以 45% 的成绩大幅领先。仅仅两天后,Poetic 发布结果,展示了远超 Gemini 3 Deep Think 的表现。
更令人瞩目的是成本效率:Poetic 的方案成本仅为 Gemini 3 Deep Think 的一半,因为他们构建在更便宜的 Gemini 3 Pro 之上。在官方验证中,Gemini 3 Deep Think 花费约 70 多美元每题,而 Poetic 仅需 32 美元每题,却取得了 54% 对 45% 的成绩——9 个百分点的提升。
人类最后考试 (Humanity's Last Exam):深度知识提取
人类最后考试是一个包含 2500 道极难问题的集合,由多个领域的专家撰写,旨在对 PhD 级别的专家也构成挑战。AI 至今尚未通过这个考试。Poetic 取得了 55% 的成绩,比此前由 Anthropic 的 Claude Opus 4.6 创造的 53.1% 的最高纪录高出近两个百分点。
特别值得注意的是成本:基础模型的一次训练动辄数亿美元,而 Poetic 作为一家仅 7 人的公司(全部是研究科学家和研究工程师),整个优化成本不到 10 万美元。
两条核心能力
Ian 指出,ARC-AGI 和人类最后考试的结果分别展示了 Poetic 的两种不同能力:
- 推理增强:在 ARC-AGI 等纯推理基准上大幅提升表现
- 深度知识提取:在人类最后考试等需要专业知识的基准上挖掘出模型深处的知识
这两条能力线意味着,无论你的问题是推理密集型还是知识密集型,Poetic 都有办法让你站在更高处。
缰绳的内部机制
缰绳本质上是由代码、提示词 (Prompt) 和数据构成的,架设在一个或多个语言模型之上。原则上,这些可以手动构建,也可以借助 Cloud Code 等工具,但实际操作中需要大量洞察才能做好。
Poetic 的核心技术是递归自我改进。他们拥有一个被称为"Poetic 元系统"的递归自我改进系统,其输出是解决硬问题的系统。所谓硬问题,就是即使交给 GPT-5.2 也难以给出可靠稳健结果的问题。
与传统范式的关系:全新的 S 曲线
Poetic 代表了一种全新的范式,不同于强化学习 (Reinforcement Learning, RL)。当我们经历了预训练的 S 曲线、RL 的 S 曲线(OpenAI 发布 o1 时),现在 Poetic 开启了一条新的 S 曲线。
每个模型或模型组合都有自己的 S 曲线,Poetic 元系统本身也有自己的 S 曲线。随着元系统的改进和底层模型的提升,你面对的 S 曲线会不断向上移动,直到最终达到 AGI 甚至超级智能 (Superintelligence)。
数据理解的新范式:让 AI 自己理解数据
传统机器学习的法则是"你必须非常了解你的数据集"。但在 Poetic 的范式下,他们不再花大量时间审视特定数据,而是让元系统自己去理解数据——发现失败模式、找出稳健的推理策略。
Ian 举了一个有趣的例子:在 ARC-AGI 的提示词输出中,有些内容明显不是人类会写的,甚至有一个示例是错误的,但他们选择不修改——这正是系统的原始输出,他们不愿人为干预。
提示词优化 vs 推理策略:5% 到 95% 的飞跃
Ian 在 DeepMind 的最后一篇论文(并非使用递归自我改进技术)中展示了手动构建缰绳解决硬问题的实验。在最难的任务上,仅用 Gemini 1.5 Flash 的基线性能是 5%。当他们仅优化提示词时,性能有所提升但幅度有限。而当他们加入推理策略后,性能从 5% 飙升至 95%。
这是一个关键洞察:目前很多人在做的自动提示词优化(如非常流行的 DSPy 论文),确实能带来一些性能提升,但远远比不上用代码编写推理策略所带来的提升。推理策略写在代码中而非仅仅更好的提示词中,才是性能飞跃的关键。
对初创公司的建议
Poetic 目前尚未正式发布产品,但初创公司可以前往 poetic.ai 注册早期访问。Ian 特别邀请那些有"真正硬的问题"的公司——那些已经尝试了一切方法仍无法让 AI 达到可靠稳健水平的团队——与他们联系,Poetic 正在寻找这样的问题。
Ian 的个人历程:从移动开发到递归自我改进
Ian 的第一个 YC 创业项目是 Portable,一家做跨平台移动应用移植的公司,后来被 Google 收购。进入 Google 后,他花了一些时间反思自己真正想做的事,最终被 AI 和机器人学吸引,因为当时世界上最优秀的人才很多都在 Google 从事这些领域。
他加入了一个新的 AI 机器人团队,但很快发现"硬件很难" (Hardware is Hard),机器人学更多是愿景而非现实。于是他转向纯粹的机器学习研究,在 Google 和 DeepMind 度过了大约十年。
给工程师的建议
Ian 给想要进入 AI 领域并围绕 AI 创业的工程师的建议是:
- 每天尝试新事物:每天都用 AI 做点什么,始终推动自己探索 AI 的能力边界
- 构建你想构建的东西:即使对他自己而言,去年夏天花一个周末用 GPT-5 构建一个 iPhone 应用也是一次震撼——速度快得难以置信
- 不要给自己设限:任何你能想象的,都应该试着用 AI 去实现,你会在过程中让世界变得更好
结语
微调的"苦涩教训"正在被一种全新的范式所回应。Poetic 通过递归自我改进,让任何构建在 LLM 之上的系统都能始终站在前沿模型的肩膀上——不烧掉数亿美元,不被下一代模型淘汰。正如 Ian 所说,有了 Poetic 的"高跷",任何代理公司都可以成为 SOTA(State of the Art)。这不仅是对微调困境的解决方案,更是通向 AGI 的一条务实路径。