GPT-4.5:大模型的能量 | YC 解码

摘要
GPT-4.5 是 OpenAI 迄今为止发布的规模最大的模型,其参数量可能达到 GPT-4 的十倍以上。该模型代表了在预训练扩展 (Pre-training Scaling) 和后训练 (Post-training) 阶段的又一进步。GPT-4.5 的核心亮点在于情感智能 (Emotional Intelligence) 和创造性任务上的显著提升——在 SimpleQA 基准测试中达到 61.9% 的准确率,远超 GPT-4o 的 38.4%;幻觉率 (Hallucination Rate) 从 GPT-4o 的 61.2% 大幅降至约 37%。然而,GPT-4.5 也面临明显局限:在结构化推理、复杂数学和编程等任务上不及专门的推理模型 o1;同时,其输入令牌成本是 GPT-4o 的 30 倍,输出令牌成本为 15 倍,大规模部署的经济可行性仍是挑战。Sam Altman 已暗示,以 GPT-4.5 为代表的无监督预训练范式与以 o3 为代表的推理优先范式将在未来融合为统一架构,可能在 GPT-5 中实现。这意味着在广博的世界知识与强大的推理能力之间做出选择的 era,或将走向终结。
正文
从 GPT-4 到 GPT-4.5:漫长等待与新范式
2023 年初 GPT-4 发布后,业界对下一代模型的期待迅速升温。然而数月过去,广受期待的 GPT-5 始终未至。整个 2024 年,互联网上关于 OpenAI 内部神秘项目"草莓" (Strawberry) 和"猎户座" (Orion) 的传闻不断,在科技界引发了巨大猜测。终于在 2024 年 12 月,OpenAI 揭晓了第一个新模型——o1,这是一个具备推理能力 (Reasoning) 的模型,能够逐步系统地思考复杂问题,在数学、编程和逻辑任务上明显超越了 GPT-4。
随后,期待转向另一个传闻中的项目——Orion,有人猜测它就是 GPT-5。Sam Altman 最终确认,Orion 将以 GPT-4.5 的名义发布。如今,GPT-4.5 终于面世——它是 OpenAI 迄今规模最大的模型,参数量可能是 GPT-4 的十倍以上,标志着预训练扩展和后训练方面迈出了新的一步。
情感智能与创造力:GPT-4.5 的差异化优势
如果 GPT-4.5 不是前沿推理模型,那它究竟有什么用?OpenAI 研究人员指出,4.5 的突出之处在于其情感智能。你可以与它进行更深层次的对话,探讨那些 GPT-4o 或 o1/o3 都不太了解的有趣话题。更重要的是,它对人类意图的理解更精准——真正"听懂"你的需求,这是 OpenAI 内部人士在使用该模型时感受到的"神奇体验"。
在基准测试中,GPT-4.5 在 SimpleQA 上达到 61.9% 的准确率,远超 GPT-4o 的 38.4%。SimpleQA 评估的是模型回答单一关系事实性问题 (Factoid Question) 的能力。幻觉率也从 GPT-4o 的 61.2% 大幅降至约 37%,这意味着 GPT-4.5 在一般性查询中更加值得信赖。
在创造性方面,GPT-4.5 表现尤为突出——无论是撰写邮件、生成富有想象力的故事、讲笑话还是头脑风暴,它都能产出明显更接近人类风格的文本。在"Make Me Pay"和"Make Me Say"这两个评估模型说服力的基准测试中,4.5 轻松超越了 GPT-4o 和 o1。社交媒体上的早期体验者也指出,4.5 往往确实很有趣,并且能够理解讽刺 (Irony),而其他模型则无法做到。
评测方法论:"氛围测试"与主观评价
不同于 o1 或 o3 这些用硬性指标衡量的模型,研究者在评估 GPT-4.5 时部分依赖"氛围测试" (Vibes Testing)。OpenAI 研究人员表示,他们的核心评估方式之一是让人类试用模型并给出反馈——这个比 GPT-4 好吗?哪里好、哪里差?然后根据反馈持续改进。他们与被称为"训练师" (Trainers) 的人员进行大量合作,对齐"什么才是好的输出"这一标准,再用反馈来优化模型。
但问题在于,写作质量、情感智能和模型"感觉" (Model Feel) 这类主观领域很难制定具体的评估标准。"什么是好的写作?"这取决于语境和受众。OpenAI 承认这些评估更为主观,因此他们将模型推出,希望用户体验后反馈是否与内部体验一致。
成本与能力局限
GPT-4.5 并非没有限制。首先是成本——每输入令牌 (Input Token) 的价格是 GPT-4o 的 30 倍,每输出令牌 (Output Token) 的价格是 15 倍。如此高昂的成本意味着 GPT-4.5 目前可能不适合大规模部署。
在能力方面,与专门的推理优先模型 o1 相比,GPT-4.5 在结构化推理领域明显逊色,包括复杂的 STEM 任务、高等数学难题和编程挑战。
更宏观的图景:两种范式将走向融合
GPT-4.5 表明,扩展无监督学习 (Unsupervised Learning) 仍然能在准确率、情感智能和创造力方面带来有价值的改进,尽管这些提升可能比过去更为渐进。预训练扩展的时代或许尚未完全结束,但推理现在似乎为从扩展计算 (Scaling Compute) 中获取收益提供了最大潜力——也就是说,在推理时间 (Inference Time) 而非训练时间投入更多资源。
展望未来,Sam Altman 暗示,无监督预训练模型(如 GPT-4.5)和专门的推理聚焦模型(如 o3)这两种范式将融合为统一架构,我们可能会在 GPT-5 中看到这一成果。OpenAI 研究人员表示:"我们确实认为推理将成为未来模型的核心能力,但这两种范式并非互斥,它们实际上互补得很好。你可以想象一个兼具 GPT-4.5 的知识直觉与推理能力的模型——那将是一个非常强大的模型。"
GPT-4.5 正是通向这一未来的关键桥梁。未来的模型可能很快将广博的世界知识 (World Knowledge)、创造性流畅度 (Creative Fluency)、情感细微度 (Emotional Nuance) 和高级推理 (Advanced Reasoning) 融为一体。在广博理解与强大推理之间做选择的 era,或将走向终结——GPT-4.5 让我们窥见了那个两种范式最佳特质合二为一的未来。