更好的 AI 模型,更好的创业公司

摘要
在 GPT-4o 和 Gemini 1.5 接连发布的背景下,Y Combinator 合伙人 Gary、Jared、Harge 和 Diana 聚焦讨论了大型语言模型(Large Language Model, LLM)的快速进步对创业公司的深远影响。Harge 首先分析了 OpenAI 的演示为何主要面向消费者场景,以及这对消费级创业公司意味着怎样的竞争压力。Diana 从技术层面深入比较了 GPT-4o 和 Gemini 1.5 的架构差异——前者是在文本 Transformer 基础上叠加语音和视觉模块,后者则是从头训练的原生混合专家(Mixture of Experts, MoE)模型。他们探讨了百万级 Token 上下文窗口(Context Window)对 RAG(检索增强生成,Retrieval-Augmented Generation)生态的影响,认为 RAG 仍将在隐私、精确检索和企业场景中长期存在。随后,对话回溯到 Google/Facebook 时代创业公司面对巨头碾压的历史,指出 Dropbox、LinkedIn、Twitter 等公司的存活之道——做巨头不会做、不愿做或不能做的事。在 B2B 领域,从建筑许可证到金融合规,存在大量 OpenAI 永远不会涉足的垂直机会。在消费领域,法律和公关风险高的"边缘"产品——如 AI 伴侣、深度伪造(Deepfake)内容创作——反而是大公司不敢碰的创业蓝海。最后,四位合伙人各自分享了最令他们兴奋的技术更新:情感语音、实时翻译、统一模型对机器人学的推动,以及成本减半带来的定制芯片和低功耗设备前景。
开场:新模型发布引发创业者的焦虑与机遇
每次 OpenAI 发布新产品,都有一批创业公司屏息以待,看自己的生意是否会被终结。然而,当模型的 IQ 持续提升——从 GPT-4 大约相当于 85 的水平,到下一代的 100、110、120 甚至 130——这对所有创业公司来说其实是一个疯狂而令人兴奋的时刻。只要更换一行代码,从 GPT-4 切换到 GPT-4o,你的产品就自动变得更聪明。不仅如此,新能力正在不断被添加到模型中:编码能力、多模态处理能力,以及更结构化的 JSON 输出——后者意味着大语言模型不再仅仅输出英文,而是可以输出计算机可直接处理的结构化数据,让创业公司更容易在其之上构建应用。
GPT-4o 与 Gemini 1.5:技术架构的深度对比
Diana 对两款新模型进行了技术层面的深入比较。GPT-4o 的有趣之处在于它在文本基础之上增加了语音模态(Speech Modality)和视频处理能力,但其底层仍然主要是基于文本的 Transformer 模型——本质上是 GPT-4。OpenAI 的做法是引导(Bootstrap)并添加模块,使其拥有不同的路径(Path)来处理不同类型的数据。OpenAI 此前还发布了 Whisper——最先进的自动语音识别(Automatic Speech Recognition)系统之一——很可能他们把 Whisper 的架构集成到了 GPT-4 中,同时集成了 DALL-E,将它们合并为 4o。这就是为什么在推理能力方面,4o 并没有比 GPT-4 有显著提升——它更多是添加模块。
Gemini 1.5 则完全不同。从技术角度,Diana 表示她实际上更兴奋于 Gemini。虽然这有些反直觉——4o 和 OpenAI 捕获了所有人的注意力,演示也极其出色(用略走调的声音唱生日快乐歌,如此拟人化)——但阅读 Gemini 的白皮书可以发现,它是真正的混合专家(Mixture of Experts)模型,这是一种全新的技术:他们从头训练了一个巨型模型,将文本、图像、音频等数据真正融合,整个网络针对不同数据类型激活特定路径。与 OpenAI 的模块化方式不同,这是一个真正的统一模型,不同部分的网络根据输入数据类型激活,因此非常节能。
Google 之所以能做到这一点,是因为他们拥有工程实力和 TPU——目前已经是第五代。将所有文本、图像和视频数据放入一个分布式集群中训练这个庞然大物成本极高,而 Google 有这个能力。这是第一个使用混合专家技术的大型模型发布。虽然 Google I/O 的演示效果稍逊(那只鸭子不是实时的),但白皮书中描述的技术确实令人印象深刻。
百万 Token 上下文窗口:RAG 的末日还是新纪元?
Gemini 1.5 的另一个重大突破是拥有百万 Token 的上下文窗口,而 GPT-4o 仅为 128K。百万 Token 大约相当于五本五百页的书。白皮书还提到,在研究环境中他们已在千万 Token 窗口上验证了其有效性。这对创业公司意味着什么?
一个有争议的论点是:所有围绕 RAG 构建工具的创业公司可能变得过时。Jared 对此持保留意见:关心数据隐私和存储位置的人仍然需要某种 RAG 系统——他们希望数据存储在自己控制的地方,而非全部放入上下文窗口。但这类人可能并非最大市场——关心底层架构的人往往是早期采用者,而非大众消费者。普通消费者可能只需要一个超大的上下文窗口,就能构建他们真正想要的个人 AI 助手——一个了解自己一切信息的助手。
Gary 分享了自己使用 ChatGPT 的体验:他让 GPT-4o 生成《威利在哪里》(Where's Waldo)图片给儿子玩,但反复出现变形的脸和不想要的红色调。经过十到十五次对话后,他查看设置发现 GPT-4o 已经自动建立了记忆:"Gary 真的不想要生成图片中的变形脸,也应该尽量避免使用红色。"他发现机器已经从交互中抽取了关键信息并形成了记忆摘要——而且可以手动删除。这实际上是一种介于纯上下文窗口和 RAG 之间的中间方案。
Jared 用处理器架构的类比来解释:90年代摩尔定律(Moore's Law)全盛时期,不仅是 CPU 处理速度变快,内存缓存层级也在不断扩大。但三十多年后的今天,我们仍然有非常复杂的多层缓存架构——快速内存存储如 Redis 用于高可用性,数据库存储,浏览器缓存等。RAG 将成为类似的基础设施层,就像我们今天与数据库交互的方式一样,会有很多层级。
此外,多个创始人向 YC 反馈,Gemini 的百万 Token 上下文窗口在精确检索方面仍有不足——有时候模型似乎无法从已经输入的上下文中准确召回特定信息。一位创始人表示,宁愿拥有一个可靠的 128K 上下文窗口,也不愿使用一个仍然像黑箱一样的大窗口。在企业场景中,人们对数据如何被检索、谁在检索、检索日志和权限控制都有严格要求——一个巨大的上下文窗口并不一定是企业所需要的,他们可能更希望敏感数据单独存储、按需检索、记录访问日志并适当过滤。
多模型竞争:创业公司的安全网
Harge 提出了一个关键观点:如果只有一家公司拥有远超其他的最强模型,那对创业公司是不利的——你必须依赖它对你友好、提供好用的 API。但如果存在多个实力相当的模型,创业公司就安全得多。OpenAI 的发布恰好在 Google I/O 前一天,这种竞争格局本身就是好消息。
Diana 指出,从她与创始人的日常交流来看,模型已经被高度抽象化了。创始人在原型阶段和正式构建阶段使用不同的模型,模型路由器(Model Router)和可观测性运维(Observability/Ops)软件生态系统正在快速发展。Harge 表示他听到新模型发布的第一反应不是为创业公司担心——因为它们并不依赖任何单一模型。他担心的是出现一个绝对主导的模型,而当有多个替代选择时,就有了市场和竞争——等于非垄断定价,意味着"千花齐放",其他创业公司可以做选择、拥有自己的毛利率。他宁愿看到一千家公司每年各赚十亿美元,也不愿看到一两家——甚至是七家——价值万亿美元的公司。
还有一个黑马尚未登场:Meta 的 LLaMA 3——拥有 4000 亿参数的版本仍在训练中,一旦发布可能真正扭转局面。有趣的是,Meta 拥有可能是最大的 GPU 集群之一——过去一年付给 Nvidia 最多钱的公司就是 Meta。但他们购买大量 GPU 并非预见到了大语言模型的爆发,而是为了训练推荐模型来与 TikTok 竞争——用于 Instagram Reels 的推荐系统实际上使用了类似的深度神经网络架构。这是经典的技术创新与颠覆:他们担心 TikTok 竞争而囤积 GPU,结果这些 GPU 恰好对这个完全不同的、将改变世界的用例极其有价值。
历史的回响:Google/Facebook 时代对 AI 时代的启示
Jared 将当前局势与 2005 至 2010 年做了类比。每次 OpenAI 发布产品,都让人想起当年创业者面对 Google 和 Facebook 扩张时的恐惧——投资者总是问"如果 Google 做了这个怎么办?"当时的最佳回应是"如果 Google 做风险投资怎么办?"——而 Google 确实做了 GV。
如果以 Google 为例,与 Google 在搜索引擎上正面竞争的公司基本都被碾压了。大多数垂直搜索引擎也没有存活下来。但像 Zillow 这样的公司成功了——它本质上是房地产垂直搜索,但拥有独特的 MLS 数据集成,变现方式也完全不同于 Google。Kayak 在旅行领域、Algolia 在企业搜索领域都找到了自己的位置。关键在于,没有一家会说自己在技术上击败了 Google,但它们通过独特的垂直数据和不同的商业模式存活了下来。
当 Google 从搜索扩展到 Google Docs、Sheets、Slides、Maps、Photos 等产品时,许多创业公司面临被碾压的风险。这就像微软通过捆绑软件击败 Netscape——一旦你能在多个用例上提供足够好的产品并将它们捆绑在一起,企业客户往往更倾向于从单一供应商采购。Dropbox 就是这种威胁的典型案例——Google 内部秘密开发的 G Drive 消息泄露后,全世界都认为 Dropbox 完蛋了:Google 拥有无限资金,会提供无限免费存储,创业公司怎么竞争?然而 Dropbox 活了下来,而且活得很好。当年 Google 的"无限存储"对应今天就是"无限 Token"——大公司试图用资源碾压创业公司的剧本正在重演。
消费级 AI 创业的机会与陷阱
OpenAI 发布了 4o——一个多模态模型,同时推出了桌面应用的首个版本。虽然目前只是网页版的壳,但如果把两者联系起来,方向很明确:朝着电影《她》(Her)的方向发展。桌面 AI 助手将访问你的所有文件、所有应用程序、IDE、浏览器,可以替你执行交易——这看起来就是真正的个人助理。而这正是 OpenAI 追求的方向:捕获所有人的科幻想象——一个你只需对话、它就能理解你需求并完成一切的全能 AI 系统。在这上面与 OpenAI 竞争,就像当年与 Google 在搜索上竞争一样困难。
但 Perplexity 提供了一个成功的反例。Perplexity 专注于研究场景——当你需要修烤面包机、搜索特定型号的相关链接和 YouTube 视频时,它远比 ChatGPT 好用。Diana 分享了自己的经历:她一开始用 ChatGPT 的方式使用 Perplexity,效果不佳;但当她在特定任务中需要带来源链接的参考材料时,Perplexity 远远优于 ChatGPT。这个用例不够酷炫——OpenAI 不会在发布会上演示"搜索返回链接和 YouTube 视频"——但恰恰是这种有价值但不性感(Valuable but Unsexy)的东西,巨头不会做,创业公司却能生存。
Harge 指出,人们总是低估新市场的规模。当年 LinkedIn 被认为不可能成为大公司——"Facebook 已经赢了社交网络,LinkedIn 不过是社交网络,你在 Facebook 上加个工作标签页不就行了?"Twitter 也一样——早期 Facebook 员工觉得 Twitter 只不过是状态更新功能,Facebook 加上就完了。但 Twitter 成了一个完全不同的东西。Instacart、DoorDash、Uber 同样如此——iPhone 和 Android 发布后,人们以为只有 Apple 和 Google 主导移动端,但这些公司做了大公司永远不会做的事。
B2B:AI 创业的金矿
B2B 是一个巨头永远不会涉足的巨大品类。Google 基本上从未构建过任何 B2B 产品——他们只做大众消费软件。而 YC 的独角兽中,大量公司构建的是 B2B 产品——比如 Segment,Google 永远不会做 Segment,因为这对他们不感兴趣。
Diana 指出,在 B2B 中人们严重低估了"人的部分"——销售体系、愿意走出去找到客户、倾听他们的不满、将这些反馈带回工程团队去调整产品的能力。她举了 YC 一家做得很好的 AI 公司 Permit Flow——他们专门加速建筑许可证申请流程,不仅服务个人,还服务大型建筑公司。很难想象这会是 OpenAI 的下一个发布——"嘿,我们做了建筑许可证申报功能!"你可以想象一个 OpenAI 工程师第一天上班被分配去开发建筑许可证工作流功能的场景——那不会发生。
当 Harge 将两个想法——桌面个人助理和 GPT 商店——结合起来时,出现了一个有趣的推论:未来两到五年内,如果 OpenAI 的桌面助理推出并了解你的一切,再结合某种扩展生态,它可能延伸到 B2B。但 Diana 认为这不会在 B2B 中成功,因为 B2B 的工作流和数据高度敏感——尤其是在金融科技(Fintech)和医疗健康领域,出于保护消费者的正当理由,监管极其严格,隐私数据需要得到保护。
Diana 分享了更多 B2B AI 成功案例:Greenlight 使用 AI 进行 KYC(了解你的客户,Know Your Customer)验证,替代了大量人工身份验证;Greenboard 在 AR 领域为银行做合规事务;还有许多公司在支付和其他日常枯燥业务中使用 AI——AI 可以让一个人完成十个人的工作。
"更好的模型,更好的创业公司":B2B 创业的自增强飞轮
Harge 指出,本期标题"更好的模型,更好的创业公司"对于 B2B 公司来说字面意义上就是对的。B2B 软件的商业模式核心就是——如何让每位客户明年比今年付更多钱。每次模型变好,你就可以将增强的功能作为加价(Upsell)的高级功能或软件升级推给客户——而终端用户并不关心底层模型是什么,他们只关心软件能为他们做什么。因此,模型持续变好、你有选择用哪个模型、额外的功能向客户收费、你赚更多钱——这形成了一个自增强飞轮。
Diana 分享了 YC 上一批次的数据:创业公司在批次开始时年化收入为 600 万美元,到批次结束时已超过 3000 万美元——在三四个月内实现了惊人的收入增长,背后只是少数几个人在做 B2B 软件。只要 ROI 立竿见影,客户就愿意掏大笔现金。
Jared 指出,使用 LLM 自动化各种工作的机会可能和整个 SaaS 行业一样大——因为 SaaS 本质上是工人做工作的工具,而 AI 的等价物是工具加人——它直接完成了工作。因此这个市场应该同样巨大,应该有更多人投身其中。每年可能有数十亿到数万亿美元的劳动力支出目前出现在某人的现金流量表上,但这些将转化为十倍价格的软件收入——这对未来十到二十年的市场估值将产生深远影响。
边缘地带:法律与公关风险中的创业机会
Harge 提出了一个"边缘"观点:任何涉及法律或公关风险的事都是现有巨头难以承担的。微软投资 OpenAI 本身就可以说是出于这个原因——当图像扩散模型(Image Diffusion Model)最初在 Google 内部出现时,他们被禁止生成人形图像,因为公关和法律风险太大。这在很大程度上为 OpenAI 创造了机会——Google 太害怕危及自己的现金牛而不敢向公众发布这项技术。同样,现在对创业公司来说,越来越"边缘"的领域往往是巨大创业机会所在。
他以 Replika AI 为例——一家在 LLM 出现之前多年就在做 AI 伴侣的公司,至今仍是顶级 AI 男友/女友产品之一。如果你把百万 Token 上下文窗口与这种虚拟实体结合——一个了解你一切信息、知道你最深层秘密和欲望的 AI——这是非常疯狂的。Character AI 有着极深的留存率,人们每天花数小时使用这类产品。消费级 AI 的未来可能是非显而易见的、甚至是"怪异"的。
Jared 提到了 Infinity AI——一家允许你将任何脚本变成电影的公司,电影中可以包含名人角色——让你可以让名人说出你心中所想的任何内容,这是边缘的,但正是这种边缘使其有趣和酷。Google 永远不会发布这样的产品。OpenAI 曾经对 Google 做的那一招——愿意发布真正边缘的东西——现在 OpenAI 自己成了在位者,他们也不能再发布这种超级边缘的东西了。在选举季节尤其如此——任何明确模仿名人肖像以牟利的产品都会被关闭,但如果你制作的是一个关于威尔·史密斯的 Meme 加上字幕,没人会起诉你。很多内容恰好处于中间地带——不是想让人们相信名人在说这些话,而是讽刺或恶搞——Facebook 或 OpenAI 绝不会在 Instagram 上推出这种功能,但 Meme 2.0——即深度伪造——已经在社交媒体上病毒式传播了。
合伙人最兴奋的技术更新
节目最后,四位合伙人回答了 Twitter 用户 Sandip 的问题:OpenAI、Google、Meta 的哪个具体更新最让你们兴奋?
Gary 最兴奋的是 GPT-4o 生成语音中的情感表达。他没意识到自己有多想念这种能力,直到听到 OpenAI 的语音——它实际上理解自己在说什么,而现有的文本转语音(Text-to-Speech)模型相比之下听起来极其机械——虽然完全可理解,但非常无聊。OpenAI 的语音让你感觉在和一个真人对话。
Jared 最兴奋的是实时翻译功能。这对他个人意义重大——他的妻子是巴西人,岳父母不说英语,他一直在学葡萄牙语但进展缓慢。口袋里随时有一个翻译器,能轻松与世界上任何人沟通,这是一个可能改变世界的想法——你可以去一个不说该国语言的国家生活。
Harge 认为 4o 看起来可能只是一次内部重组——OpenAI 意识到需要所有团队朝同一个方向划船——这对他们的桌面助理产品和未来的机器人学(Robotics)都可能是极好的消息。他提到了一家中国公司 Unitree 发布的 11.6 万美元人形双足机器人(Twitter 提醒还需再付 5 万美元才能获得 API 访问权限),统一模型意味着实用机器人学可能真的不远了——虽然"这次不一样"已经被说了很多年,但这次确实可能不同。
Diana 选择了一个更技术的答案:成本减半。如果推演下去,这意味着许多模型正在接近某种增长渐近线(Asymptotic Growth),变得更加稳定,这为定制芯片(Custom Silicon)处理这些模型打开了空间,使更多低功耗处理成为可能——从而支持机器人学,构建可放进口袋的设备而非必须联网——所有这些新科技产品发布带来的兴奋,都值得期待。