构建世界顶尖图像扩散模型

cover

摘要

在本期《光锥》播客中，Y Combinator 合伙人 Gary、Jared 和 Diana 采访了 Playground 的创始人兼 CEO Suhail Doshi。Playground 刚刚推出了其最新的 V3 模型，这是一个在文本遵循度、图形设计和用户体验方面都达到顶尖水平的图像生成模型。Suhail 分享了团队如何在发布前一个半月彻底推翻原有的产品形态，从一款通用 AI 图像生成器毅然转型，专注于图形设计这一更具实用价值的领域。这一决策源于他们对用户行为的深度观察——如果不解决“文本生成”这一核心难题，图像模型将很难超越“玩具”的范畴，进入真正的商业应用。

Suhail 深入阐述了 Playground 的核心设计哲学：产品应“视觉优先”，通过预设模板和自然语言交互，让用户像与设计师对话一样修改图像，彻底消除复杂的提示词工程。在技术层面，他透露团队放弃了包括 CLIP 在内的传统 Stable Diffusion 架构，从头构建了全新的模型，以实现近乎无限的上下文理解能力和极高的文本准确性。访谈还探讨了模型评估中的“纠缠问题”，即过强的提示遵循度有时会与审美评分产生冲突。此外，Suhail 对比了他在 Mixpanel 和 Mighty 的创业经历，强调了选择正确市场和借助“顺风”的重要性，并指出达到顶尖模型的关键在于对每一个细节近乎偏执的关注。

正文

产品初体验：颠覆性的图形设计能力

节目伊始，Gary 展示了一系列他用 Playground 设计的 T 恤图案。这些设计并非从零开始的文本描述，而是从一个预设模板出发，通过自然语言指令逐步修改而成。例如，Gary 选择了一个包含剑和飘带的模板，然后指示模型：“让飘带上写着‘house tan’，并添加一个带有两个风扇的 GPU”。他强调，最令人印象深刻的是，他无需像使用 Midjourney 或在 Discord 上那样反复修改提示词、不断重试，整个体验就像在“与一位机器设计师对话”，可以直接提出诸如“把背景换成白色”之类的要求，模型便能准确理解并执行。

这引出了 Playground 的两大核心优势。其一，精准的文本生成能力。Jared 指出，任何使用过 DALL-E 的人都清楚，让 AI 写出清晰、准确的文字是多么困难，通常结果都是乱码。而在 Playground 生成的图像中，文字不仅拼写无误，甚至还能指定其位置、大小、字体和字距。Suhail 解释说，文本准确性是他们首要攻克的目标，因为它直接关系到图形的实用价值——无论是 logo、海报还是 T 恤设计，文字都是必不可少的元素。他甚至透露，在开发过程中，模型的文本准确率一度只有 45%，团队曾像“在丛林中迷失方向”一样陷入恐慌。

其二，视觉优先的交互模式。Suhail 认为，现有的图像模型大多以文本为先，要求用户成为“提示词工程师”，写出复杂的描述，这对于 99% 的人来说门槛太高。Playground 的做法是提供一个“视觉优先”的产品，用户可以从一个喜欢的模板开始，这已经完成了 80% 的工作，然后通过简单的自然语言指令进行个性化修改。这种交互方式极大地降低了创作门槛，使得生成具有实用价值的图形设计，而非仅仅是艺术画作成为可能。

从用户行为中洞察的转型之路

Suhail 坦诚地分享了这一产品方向背后的曲折故事。Playground 的前身是一个更通用的 AI 图像生成网站，在 Stable Diffusion 开源后迅速获得了大量用户。然而，在经历了 18 个月的观察后，团队发现了一个令人沮丧的现实：大量用户生成的是接近色情的内容。

“如果我们听从用户当时的‘需求’，我们可能得开一家色情公司了，”Suhail 开玩笑说，“我妻子和我母亲可不会为此高兴。”这迫使团队进行深刻反思，寻找图像模型真正的、可持续的商业价值。他们研究了所有主要的应用场景——logo、海报、T恤、保险杠贴纸，发现几乎所有场景都高度依赖文本。文字是人类沟通的核心方式之一，如果模型无法处理好文字，就无法在这些大市场中立足。因此，解决文本生成问题，从“锦上添花”变成了“生死攸关”的头等大事。这个洞察促使团队在一个半月内彻底推翻了原有产品，全力转向以图形设计为核心的新方向。

Suhail 将这次转型与他在 Mixpanel 的经历做了类比。在 Mixpanel 早期，他们曾面临一个选择：是服务于那些能快速带来收入但用户留存极差的游戏公司，还是服务于更广阔的传统互联网和即将爆发的移动互联网市场。在导师 Max Levchin 的建议下，他做出了一个艰难但正确的决定——放弃游戏业务，全力追逐更大的市场。最终，移动互联网的爆发证明了这一战略的远见。如今面对图像模型，他选择了同样的逻辑：相比于 Midjourney 所在的年收入约 2-3 亿美元的市场，以 Canva 为代表的图形设计市场价值高达 230 亿美元以上。选择解决图形设计中的文本难题，就是选择了一个大得多的商业机会。

核心技术揭秘：从推倒重来到“谜之架构”

为了达到顶尖的文本理解和生成能力，Suhail 的团队不得不对现有架构进行彻底的革新。他解释说，主流的 Stable Diffusion 架构由变分自编码器（VAE）、CLIP 文本编码器和 U-Net（或更新的 DiT Transformer）组成，但这些组件都成为了限制性能的瓶颈。

首先，放弃 CLIP。CLIP 模型虽然强大，但其训练数据源于互联网上噪音极大的“替代文本（alt tags）”，导致其在精确理解复杂、长文本提示方面存在固有缺陷。为了实现 GPT-3 级别般的深度语言理解，Playground 利用了近年来大语言模型（LLMs）飞速发展的“顺风”，采用了能够提供极其丰富语言表征的文本编码器，从而让模型真正“听懂”用户的指令，实现近乎无限的上下文窗口（模型支持高达 8000 个词元）。

其次，重写变分自编码器（VAE）。Suhail 指出，标准的 VAE 在处理精细细节时能力不足，尤其是在手部、面部缩小或文字等场景下，无法进行高质量的重建。为了确保文字等小细节的清晰度，他们不得不开发更强大的 VAE。

最冒险的决策发生在四个月前。当时，研究团队在白板上列出了两条技术路线：一条是相对稳妥、与现有开源模型类似的架构；另一条则是“不可言说”的、高风险的全新架构。尽管后者可能浪费数月时间和巨额计算资源而最终失败，团队还是一致决定将所有赌注压在后者身上。Suhail 说：“我们别无选择，因为如果我们不这样做，我们注定会失败。”幸运的是，这次豪赌取得了成功，诞生了如今在提示遵循度和文本生成上均达到顶尖水平的 Playground V3。

评估悖论：当“听话”成为“错误”

在追求极致提示遵循度的过程中，Suhail 的团队发现了一个意想不到的问题——审美与遵循度的“纠缠问题”。他们进行了一项标准的 A/B 盲测，将 Playground 模型的图像与另一款以美学著称的模型（如 Midjourney）的图像放在一起，让用户选择更喜欢的。

结果令人惊讶：Playground 在很多测试中落败了。但这并非因为其生成图像的美学质量不高，而恰恰是因为它太“听话”了。Suhail 举了一个例子：当提示词要求生成一个“分屏”构图的图像时，Playground 会忠实地创建一个左右分割的画面，而竞品模型可能直接忽略这个指令，生成一张更具美感的完整单帧图像。用户自然会选择后者，因为它在构图上更令人愉悦。然而，这实际上衡量的不是美学能力，而是模型是否“偷懒”。另一个例子是“手绘风格棕榈树”，Playground 的图像因忠实呈现了“手绘”的不完美感，在视觉上不如那些生成“不那么手绘”的华丽图像的竞品吸引人。

这个发现让团队意识到，现有的以用户偏好为基础的审美评估标准，在面对一个高度遵循指令的模型时，已经失效了。它实际上是在惩罚模型的“能力”。Suhail 公开呼吁学术界和研究社区关注这一新型的评估问题，因为它揭示了一个更根本的挑战：如何界定和衡量一个既能精准执行指令，又能同时保持高水准美学的模型。

创始人复盘：逆风、顺风与重振旗鼓

Suhail 的创业史本身就是一堂生动的商业课。19 岁创立 Mixpanel，并将其打造为年收入数亿美元的分析领域领导者，这是他的第一次成功。之后，他创办了旨在通过云流式传输技术让浏览器更快的公司 Mighty。尽管技术在某种程度上是成功的，但他最终意识到，无法在不依赖苹果 M1 芯片或浏览器内核根本性变革的情况下，实现 10 倍级的速度提升。当团队成员告诉他，Chrome V8 引擎的团队已尝试过他能想到的所有加速方案，且每个都只能带来 1% 的微幅改进时，他知道这是“想法耗尽”的时刻，于是决定关闭公司。

他从 Mighty 吸取的最大教训是：永远不要与“逆风”对抗。Mighty 面临着苹果自研芯片、浏览器架构僵化等多重结构性阻碍，每一步都异常艰难。他深刻地认识到“顺风”对于初创公司的价值——一个能够随着时间推移，因外部技术进步而自然变得更快、更便宜、更强大的赛道。

在 Mighty 之后，Suhail 开始重新学习 AI。作为一名技术型创始人，他出于兴趣一直在跟踪 AI 领域的前沿动态，甚至在 GPT-4 发布前，就为了给 Mighty 浏览器开发 AI 地址栏而与 OpenAI 有过交流。这让他比大多数人更早地感受到了 AI 浪潮的来临。他笑称自己在 2018 年曾一度认为 “AI 没什么有意思的事”，并因此错过了更早入场的机会。如今，通过 Playground 一头扎进 AI 图像生成领域，他感到了一种“救赎”。他说道：“在 Playground，感觉全都是顺风。我们只需要等待，一切都会变得更好、更快、更便宜。”这与他之前做 Mighty 时的感受形成了鲜明对比。

驾驭双重灵魂：如何在创业公司中做研究

经营 Playground 意味着同时管理一家快节奏的创业公司和一间需要耐心与自由的研究实验室。Suhail 承认，这是一个巨大的挑战。初创公司的本能是快速发布、快速迭代，但研究无法在一周内“发布一个新模型”。他必须为两个团队设定不同的节奏。

如何保持研究的活力？他从 Sam Altman 那里得到的关键建议是：允许研究人员“漫游”。在取得令人印象深刻的阶段性成果之前，给予研究团队相当的自由度去探索。一旦某个方向显示出巨大潜力，整个公司再集中资源进行加速。

同时，他试图将两者更紧密地结合。他们建立了一个内部反馈渠道，让研究人员能够直接接触到用户的失败案例。当研究员在“漫游”时，他们可以自主选择那些由真实用户反馈揭示的问题去解决。Suhail 认为，这形成了 Playground 一个独特的差异化优势：与许多只关注在学术基准上取得高分的研究实验室不同，Playground 的研究深深植根于真实用户的需求和痛点，尽管这比简单地追求一个评测分数要复杂得多。他同时批评了当前大型语言模型（LLMs）的评估方式——过多关注数学、物理等作业性题目，而忽略了如“帮我写说唱歌词”这类更能反映模型实际创造力的应用。正是这种对有用性的执着，驱动着 Playground 的方向。

成为顶尖的心法：对细节的病态执着

在访谈的尾声，Suhail 分享了构建世界级模型的核心心法：对每一个细节的病态执着。在许多人看来，强大的模型只需要海量的数据和算力。但 Suhail 认为，事实远比这复杂。

他以文字生成为例，说明不同团队的分野：“会有一些人训练出模型，能生成很酷的文字，但字距（kerning）是错的。你是那种会关心字距不对的人吗？还是你觉得无所谓，甚至压根注意不到？”在 Playground，他们就是那群会关心字距、皮肤纹理、胶片颗粒感等每一个微小细节的“疯子”。Suhail 形容自己的眼睛因为长期审视最细微的图像瑕疵而“快要烧坏了”。研究团队会日复一日地争论这些看似微小的质量问题。

他认为，正是这种在无数个维度上进行极致优化的“病态”心态，最终促成了模型的涌现和泛化能力。你无法预知在一个点上的改进会如何影响另一个看似不相关的点，但当你在成百上千个细节上都追求卓越时，模型就会发生质的飞跃。Suhail 说：“达到顶尖水平是可能的，是可以实现的，但这真的很不容易，极其困难。”