GPT-4.5：大模型的能量 | YC 解码

cover

摘要

GPT-4.5 是 OpenAI 迄今为止发布的规模最大的模型，其参数量可能达到 GPT-4 的十倍以上。该模型代表了在预训练扩展 (Pre-training Scaling) 和后训练 (Post-training) 阶段的又一进步。GPT-4.5 的核心亮点在于情感智能 (Emotional Intelligence) 和创造性任务上的显著提升——在 SimpleQA 基准测试中达到 61.9% 的准确率，远超 GPT-4o 的 38.4%；幻觉率 (Hallucination Rate) 从 GPT-4o 的 61.2% 大幅降至约 37%。然而，GPT-4.5 也面临明显局限：在结构化推理、复杂数学和编程等任务上不及专门的推理模型 o1；同时，其输入令牌成本是 GPT-4o 的 30 倍，输出令牌成本为 15 倍，大规模部署的经济可行性仍是挑战。Sam Altman 已暗示，以 GPT-4.5 为代表的无监督预训练范式与以 o3 为代表的推理优先范式将在未来融合为统一架构，可能在 GPT-5 中实现。这意味着在广博的世界知识与强大的推理能力之间做出选择的 era，或将走向终结。

正文

从 GPT-4 到 GPT-4.5：漫长等待与新范式

2023 年初 GPT-4 发布后，业界对下一代模型的期待迅速升温。然而数月过去，广受期待的 GPT-5 始终未至。整个 2024 年，互联网上关于 OpenAI 内部神秘项目"草莓" (Strawberry) 和"猎户座" (Orion) 的传闻不断，在科技界引发了巨大猜测。终于在 2024 年 12 月，OpenAI 揭晓了第一个新模型——o1，这是一个具备推理能力 (Reasoning) 的模型，能够逐步系统地思考复杂问题，在数学、编程和逻辑任务上明显超越了 GPT-4。

随后，期待转向另一个传闻中的项目——Orion，有人猜测它就是 GPT-5。Sam Altman 最终确认，Orion 将以 GPT-4.5 的名义发布。如今，GPT-4.5 终于面世——它是 OpenAI 迄今规模最大的模型，参数量可能是 GPT-4 的十倍以上，标志着预训练扩展和后训练方面迈出了新的一步。

情感智能与创造力：GPT-4.5 的差异化优势

如果 GPT-4.5 不是前沿推理模型，那它究竟有什么用？OpenAI 研究人员指出，4.5 的突出之处在于其情感智能。你可以与它进行更深层次的对话，探讨那些 GPT-4o 或 o1/o3 都不太了解的有趣话题。更重要的是，它对人类意图的理解更精准——真正"听懂"你的需求，这是 OpenAI 内部人士在使用该模型时感受到的"神奇体验"。

在基准测试中，GPT-4.5 在 SimpleQA 上达到 61.9% 的准确率，远超 GPT-4o 的 38.4%。SimpleQA 评估的是模型回答单一关系事实性问题 (Factoid Question) 的能力。幻觉率也从 GPT-4o 的 61.2% 大幅降至约 37%，这意味着 GPT-4.5 在一般性查询中更加值得信赖。

在创造性方面，GPT-4.5 表现尤为突出——无论是撰写邮件、生成富有想象力的故事、讲笑话还是头脑风暴，它都能产出明显更接近人类风格的文本。在"Make Me Pay"和"Make Me Say"这两个评估模型说服力的基准测试中，4.5 轻松超越了 GPT-4o 和 o1。社交媒体上的早期体验者也指出，4.5 往往确实很有趣，并且能够理解讽刺 (Irony)，而其他模型则无法做到。

评测方法论："氛围测试"与主观评价

不同于 o1 或 o3 这些用硬性指标衡量的模型，研究者在评估 GPT-4.5 时部分依赖"氛围测试" (Vibes Testing)。OpenAI 研究人员表示，他们的核心评估方式之一是让人类试用模型并给出反馈——这个比 GPT-4 好吗？哪里好、哪里差？然后根据反馈持续改进。他们与被称为"训练师" (Trainers) 的人员进行大量合作，对齐"什么才是好的输出"这一标准，再用反馈来优化模型。

但问题在于，写作质量、情感智能和模型"感觉" (Model Feel) 这类主观领域很难制定具体的评估标准。"什么是好的写作？"这取决于语境和受众。OpenAI 承认这些评估更为主观，因此他们将模型推出，希望用户体验后反馈是否与内部体验一致。

成本与能力局限

GPT-4.5 并非没有限制。首先是成本——每输入令牌 (Input Token) 的价格是 GPT-4o 的 30 倍，每输出令牌 (Output Token) 的价格是 15 倍。如此高昂的成本意味着 GPT-4.5 目前可能不适合大规模部署。

在能力方面，与专门的推理优先模型 o1 相比，GPT-4.5 在结构化推理领域明显逊色，包括复杂的 STEM 任务、高等数学难题和编程挑战。

更宏观的图景：两种范式将走向融合

GPT-4.5 表明，扩展无监督学习 (Unsupervised Learning) 仍然能在准确率、情感智能和创造力方面带来有价值的改进，尽管这些提升可能比过去更为渐进。预训练扩展的时代或许尚未完全结束，但推理现在似乎为从扩展计算 (Scaling Compute) 中获取收益提供了最大潜力——也就是说，在推理时间 (Inference Time) 而非训练时间投入更多资源。

展望未来，Sam Altman 暗示，无监督预训练模型（如 GPT-4.5）和专门的推理聚焦模型（如 o3）这两种范式将融合为统一架构，我们可能会在 GPT-5 中看到这一成果。OpenAI 研究人员表示："我们确实认为推理将成为未来模型的核心能力，但这两种范式并非互斥，它们实际上互补得很好。你可以想象一个兼具 GPT-4.5 的知识直觉与推理能力的模型——那将是一个非常强大的模型。"

GPT-4.5 正是通向这一未来的关键桥梁。未来的模型可能很快将广博的世界知识 (World Knowledge)、创造性流畅度 (Creative Fluency)、情感细微度 (Emotional Nuance) 和高级推理 (Advanced Reasoning) 融为一体。在广博理解与强大推理之间做选择的 era，或将走向终结——GPT-4.5 让我们窥见了那个两种范式最佳特质合二为一的未来。