微调的强大替代方案

cover

摘要

本文基于 YC「光锥」(Light Cone) 节目对 Poetic 联合创始人兼联合 CEO Ian Fischer 的深度访谈，系统阐述了递归自我改进 (Recursive Self-Improvement) 作为一种全新范式，如何以远低于微调 (Fine-Tuning) 的成本让大语言模型 (LLM) 在各类硬问题上持续超越前沿模型。传统微调需要收集数万样本、耗费数亿算力，且成果往往被下一代基础模型 (Foundation Model) 瞬间碾压——这正是 Rich Sutton 所说的"苦涩教训" (Bitter Lesson)。Poetic 的核心洞察在于：不必重新训练模型，而是在一个或多个语言模型之上构建"推理缰绳" (Reasoning Harness)，使其始终比底层模型更聪明；当新模型发布时，同一缰绳完美兼容，甚至获得更大性能跃升。Poetic 的元系统 (Meta System) 通过自动优化提示词 (Prompt)、推理策略和上下文填充 (Context Stuffing) 来生成这些缰绳，在 ARC-AGI V2 基准上以 Gemini 3 Pro 的一半成本将成绩从 45% 提升至 54%，在人类最后考试 (Humanity's Last Exam) 上以不到 10 万美元优化成本取得 55% 的成绩，超越 Claude Opus 4.6 的 53.1%。Ian 还分享了他从移动开发工具创业、被 Google 收购、在 DeepMind 潜心十年到创立 Poetic 的个人历程，并鼓励工程师每天用 AI 尝试新事物、不断探索能力边界。

正文

开场：AI 时代的行动号召

世界正在飞速变化。Ian Fischer 在节目开头便给出了一条朴素但有力的建议：每天都用 AI 做点事情，不断尝试，不断探索 AI 的能力边界。去年夏天，他花了一个周末用 GPT-5 帮自己构建了一个 iPhone 应用——这是他十年来第一次做这件事。而那还只是八个月前的事，如今速度和便捷程度又提升了一个量级。不要给自己设限，任何你能想象到的东西，都应该试着用 AI 去实现。

Poetic 是什么：递归自我改进的核心理念

Poetic 构建的是一个递归自我改进的系统。所谓递归自我改进，是 AI 领域的"圣杯"——让 AI 让自己变得更聪明。Poetic 的核心洞察在于，他们可以以远比现有方案更快、更便宜的方式实现递归自我改进。

目前大多数实现递归自我改进的方案都需要从头训练新的 LLM，而训练一个 LLM 从零开始需要数亿美元和数月时间。更关键的是，一旦你花了巨资微调出一个模型，Anthropic 或 OpenAI 的下一代模型就可能直接把你淘汰。这正是 Rich Sutton 所说的"苦涩教训"：那些依赖人类先验知识的方案，终将被更大规模的通用计算方案超越。

缰绳 (Harness) 的概念：站在高跷上

Poetic 给用户提供的是一种"缰绳"——也可以称为代理系统 (Agentic System)——它架设在一个或多个语言模型之上，性能始终超越底层模型。当新一代模型发布时，同一套缰绳完全兼容，无需任何修改就能获得更大的性能提升。此外，Poetic 还可以针对新模型继续优化，进一步提升表现。

这个比喻非常形象：前沿模型是高跷 (Stilts)，Poetic 让你站在高跷之上。不管什么样的模型发布，你都可以比它更高。Ian 强调，Poetic 不把前沿模型视为竞争对手——它们是 Poetic 赖以存在的基础层，没有它们，Poetic 也不可能存在。

传统微调的困境

如果没有 Poetic，一家初创公司面对硬问题的典型路径是：

首先收集大量数据集——数万个针对特定问题的样本
然后微调你能拿到的最好的模型——可能是某个前沿模型，也可能是某个开放权重 (Open Weights) 模型
在微调上花费大量算力费用
最终得到一个比原始模型稍好的结果——但此时新模型已经发布，直接超越了你辛苦微调的成果

Ian 举了一个极端的例子：如果你三年前在 GPT-3.5 上微调，等到 GPT-4o 发布时，你的成果直接被碾压。那么你是再花巨资重来一遍，还是直接关门？在很多情况下，答案是后者。

ARC-AGI V2：初露锋芒

Poetic 于去年十二月发表论文，宣告出隐身 (Stealth) 模式，结果直接登上 ARC-AGI V2 排行榜顶端。当时 Gemini 3 Deep Think 刚发布，以 45% 的成绩大幅领先。仅仅两天后，Poetic 发布结果，展示了远超 Gemini 3 Deep Think 的表现。

更令人瞩目的是成本效率：Poetic 的方案成本仅为 Gemini 3 Deep Think 的一半，因为他们构建在更便宜的 Gemini 3 Pro 之上。在官方验证中，Gemini 3 Deep Think 花费约 70 多美元每题，而 Poetic 仅需 32 美元每题，却取得了 54% 对 45% 的成绩——9 个百分点的提升。

人类最后考试 (Humanity's Last Exam)：深度知识提取

人类最后考试是一个包含 2500 道极难问题的集合，由多个领域的专家撰写，旨在对 PhD 级别的专家也构成挑战。AI 至今尚未通过这个考试。Poetic 取得了 55% 的成绩，比此前由 Anthropic 的 Claude Opus 4.6 创造的 53.1% 的最高纪录高出近两个百分点。

特别值得注意的是成本：基础模型的一次训练动辄数亿美元，而 Poetic 作为一家仅 7 人的公司（全部是研究科学家和研究工程师），整个优化成本不到 10 万美元。

两条核心能力

Ian 指出，ARC-AGI 和人类最后考试的结果分别展示了 Poetic 的两种不同能力：

推理增强：在 ARC-AGI 等纯推理基准上大幅提升表现
深度知识提取：在人类最后考试等需要专业知识的基准上挖掘出模型深处的知识

这两条能力线意味着，无论你的问题是推理密集型还是知识密集型，Poetic 都有办法让你站在更高处。

缰绳的内部机制

缰绳本质上是由代码、提示词 (Prompt) 和数据构成的，架设在一个或多个语言模型之上。原则上，这些可以手动构建，也可以借助 Cloud Code 等工具，但实际操作中需要大量洞察才能做好。

Poetic 的核心技术是递归自我改进。他们拥有一个被称为"Poetic 元系统"的递归自我改进系统，其输出是解决硬问题的系统。所谓硬问题，就是即使交给 GPT-5.2 也难以给出可靠稳健结果的问题。

与传统范式的关系：全新的 S 曲线

Poetic 代表了一种全新的范式，不同于强化学习 (Reinforcement Learning, RL)。当我们经历了预训练的 S 曲线、RL 的 S 曲线（OpenAI 发布 o1 时），现在 Poetic 开启了一条新的 S 曲线。

每个模型或模型组合都有自己的 S 曲线，Poetic 元系统本身也有自己的 S 曲线。随着元系统的改进和底层模型的提升，你面对的 S 曲线会不断向上移动，直到最终达到 AGI 甚至超级智能 (Superintelligence)。

数据理解的新范式：让 AI 自己理解数据

传统机器学习的法则是"你必须非常了解你的数据集"。但在 Poetic 的范式下，他们不再花大量时间审视特定数据，而是让元系统自己去理解数据——发现失败模式、找出稳健的推理策略。

Ian 举了一个有趣的例子：在 ARC-AGI 的提示词输出中，有些内容明显不是人类会写的，甚至有一个示例是错误的，但他们选择不修改——这正是系统的原始输出，他们不愿人为干预。

提示词优化 vs 推理策略：5% 到 95% 的飞跃

Ian 在 DeepMind 的最后一篇论文（并非使用递归自我改进技术）中展示了手动构建缰绳解决硬问题的实验。在最难的任务上，仅用 Gemini 1.5 Flash 的基线性能是 5%。当他们仅优化提示词时，性能有所提升但幅度有限。而当他们加入推理策略后，性能从 5% 飙升至 95%。

这是一个关键洞察：目前很多人在做的自动提示词优化（如非常流行的 DSPy 论文），确实能带来一些性能提升，但远远比不上用代码编写推理策略所带来的提升。推理策略写在代码中而非仅仅更好的提示词中，才是性能飞跃的关键。

对初创公司的建议

Poetic 目前尚未正式发布产品，但初创公司可以前往 poetic.ai 注册早期访问。Ian 特别邀请那些有"真正硬的问题"的公司——那些已经尝试了一切方法仍无法让 AI 达到可靠稳健水平的团队——与他们联系，Poetic 正在寻找这样的问题。

Ian 的个人历程：从移动开发到递归自我改进

Ian 的第一个 YC 创业项目是 Portable，一家做跨平台移动应用移植的公司，后来被 Google 收购。进入 Google 后，他花了一些时间反思自己真正想做的事，最终被 AI 和机器人学吸引，因为当时世界上最优秀的人才很多都在 Google 从事这些领域。

他加入了一个新的 AI 机器人团队，但很快发现"硬件很难" (Hardware is Hard)，机器人学更多是愿景而非现实。于是他转向纯粹的机器学习研究，在 Google 和 DeepMind 度过了大约十年。

给工程师的建议

Ian 给想要进入 AI 领域并围绕 AI 创业的工程师的建议是：

每天尝试新事物：每天都用 AI 做点什么，始终推动自己探索 AI 的能力边界
构建你想构建的东西：即使对他自己而言，去年夏天花一个周末用 GPT-5 构建一个 iPhone 应用也是一次震撼——速度快得难以置信
不要给自己设限：任何你能想象的，都应该试着用 AI 去实现，你会在过程中让世界变得更好

结语

微调的"苦涩教训"正在被一种全新的范式所回应。Poetic 通过递归自我改进，让任何构建在 LLM 之上的系统都能始终站在前沿模型的肩膀上——不烧掉数亿美元，不被下一代模型淘汰。正如 Ian 所说，有了 Poetic 的"高跷"，任何代理公司都可以成为 SOTA（State of the Art）。这不仅是对微调困境的解决方案，更是通向 AGI 的一条务实路径。