AI 界面的未来 | 设计评审

摘要
在未来十年,新的 AI 用户界面将超越我们目前所熟悉的聊天界面(Chat UI)而大量涌现。本期节目中,Aaron 与 Notion Calendar 创造者 Rafael Siderski 共同评审了 YC 社区提交的一系列前沿 AI 界面产品。Rafael 指出,过去的软件界面主要由"名词"构成——文本、表单、下拉菜单、按钮等可被指认的静态元素;而 AI 时代的界面更多是"动词"——工作流、自动补全、自动建议、信息采集等动态行为,但目前我们尚缺乏在屏幕上"绘制动词"的工具。两位评审依次体验了七款产品:语音 AI 开发平台 Vapy、呼叫中心语音 AI Retail AI、可视化工作流自动化工具 GumLoop、AI 驱动的电子表格 AnswerGrid、AI 产品设计师 Polyt、自适应邮件应用 Zuni,以及 AI 视频工作室 Argil。通过对每款产品的深度试用,他们提炼出 AI 界面设计的核心洞察:延迟即界面、开发模式与生产模式的区分、画布(Canvas)作为新型文档形态、内联引用验证机制、提示词到输出的渐进式反馈、自适应 UI 的交互一致性,以及用低保真换取快速迭代的策略。两位评审最终总结道,我们正处于类似 2010 年触屏设备问世时的范式转换期,所有软件组件都在被重新想象和重塑。
正文
从名词到动词:AI 界面的根本转变
Aaron 开场指出,未来十年新的 AI 用户界面将超越当前常见的聊天界面而大量出现。Rafael 从高层次阐述了这一转变的本质:到目前为止,软件界面主要由"名词"(Nouns)构成——文本、表单、下拉菜单、按钮等静态的可指认元素。而 AI 带来的真正变化是,设计越来越多地围绕"动词"(Verbs)展开——工作流、自动补全(Auto Complete)、自动建议(Auto Suggest)、代替用户外出采集信息等动态行为。然而,目前我们尚缺乏在屏幕上"绘制动词"的工具语言,这正是 AI 界面设计最令人着迷的地方。
Vapy:语音 AI 开发平台
第一款评审产品是 Vapy,一个面向开发者的语音 AI 平台。Vapy 让开发者能在几分钟而非几个月内构建、测试和部署语音代理(Voice Agent)。
延迟即界面: 在试用过程中,Rafael 注意到当用户说话时没有视觉反馈表明麦克风识别了语音,当语音代理回答时也没有视觉指示。如果笔记本电脑静音,用户根本无法判断演示是否出了问题。因此,在拥有屏幕的场景中搭配多模态提示(Multimodal Cues)非常重要。
延迟是界面的核心: 两位评审重点讨论了延迟在语音 AI 中的关键作用。Vapy 针对开发者受众,在每次回答旁都显示延迟毫秒数标签,帮助开发者建立直觉——多少毫秒感觉自然,多少毫秒开始感觉像在和机器人对话。Rafael 指出:"延迟即界面(Latency is the Interface)",回应越快越像自然对话,越慢越像在和机器人说话。
开发模式 vs 生产模式: 暴露毫秒级延迟的做法本质上是"开发模式"——让开发者看到底层指标;而面向最终用户时则是"生产模式",不需要展示这些技术细节。
中断处理: 当评审尝试打断语音代理时,出现了两个问题:一是代理在用户打断时没有暂停,二是代理完全错过了用户的提问,继续执行自己的"议程"。这是当前语音 AI 需要改进的关键领域。
核心收获: 面向开发者、展示延迟指标、语音质量接近人类——如今创业公司就能构建出过去只有大公司才能做的语音技术。
Retail AI:呼叫中心语音 AI
第二款产品是 Retail AI,主打"用语音 AI 超级赋能你的呼叫运营"。评审通过真实电话呼叫体验了其债务催收场景。
应对意外情况: Aaron 在表单中填写名字为 Aaron,但在通话中途改称"这不是 Aaron,这是 Steve"。AI 代理成功地从那一刻起改称 Steve,展现出从对话中学习的能力。然而,当 Steve 说"我好久没见 Aaron 了,他可能度假去了"时,AI 只是道歉并结束通话,没有进一步追问——这时开始显得有些机械。
延迟问题: 两位评审一致认为延迟是唯一暴露 AI 身份的线索,语音本身极其逼真。
人机协作模式: 这项技术可以作为第一道防线,大约 50% 的通话由机器人自动完成,剩余的再引入人工处理。后台还会生成完整的通话记录,让人工客服可以跟进。这消除大量重复性的低端工作。
后台 AI 界面: 评审推测该产品背后还有丰富的 AI 界面,向呼叫中心操作员展示通话过程中发生的一切,这是该技术的另一个重要维度。
GumLoop:可视化工作流自动化
进入 AI 代理(AI Agent)领域后,评审首先体验了 GumLoop,它承诺"用 AI 自动化 10 倍产出,无需编码"。
画布作为新型文档形态: GumLoop 采用了无限画布(Infinite Canvas)界面,用户可以平移和缩放,每个步骤用方块表示。Rafael 指出,画布已经作为一种有趣的新型文档形态出现,不仅适用于设计工具和头脑风暴,也非常适合建模 AI 流程——用户可以精确看到代理将执行的每一步,并控制每一步应该做什么。
颜色编码与缩放层级: 产品使用颜色区分不同类型的节点(输入、动作、输出等),但 Rafael 建议增加图例说明。此外,当缩放到很远时小字无法阅读,他建议在不同缩放层级显示不同的保真度——远景时将节点折叠为色块。
多维度分支的价值: 当前模板是线性流程,但画布建模 AI 代理决策树的真正威力在于多维度的分支——当你无法用线性的文档食谱(先做这、再做那)来描述时,画布才能展现其真正力量。Rafael 建议用一个多维度的模板来更好地展示产品的能力。
交互式流程图: Aaron 指出,流程图的概念并不新——芯片设计师 50 年前就这样建模了。新的是让静态的流程图变成交互式的。10 年后,这种画布界面可能成为控制和监控无处不在的 AI 代理的标准方式。
AnswerGrid:AI 驱动的电子表格
第二款 AI 代理产品是 AnswerGrid,主打"规模化获取答案"。
示例按钮模式: AnswerGrid 在自由文本输入框旁提供了可点击的示例按钮。Rafael 指出,当界面要求用户编写提示词(Prompt)时,提供示例并将它们变成一键按钮是非常好的模式——用户面对空白画布时常不知从何开始。Rafael 更进一步建议,不仅限于静态示例,还可以根据应用上下文推断用户可能需要的提示词并动态展示。
提示词到结构化数据: 评审点击"旧金山 AI 公司"示例后,迅速获得包含 OpenAI、Anthropic、Perplexity 等公司的结构化电子表格数据,含总部位置、行业和网站 URL。
动态添加列: 评审添加了"融资额"列,AI 代理自动外出搜索并为每个单元格填充数据。Aaron 形容这"像是打了类固醇的电子表格"——几乎每个单元格都有自己的 AI 代理去获取所需数据。
内联引用验证: 点击单元格时,不仅显示答案,还内联显示信息来源。例如 OpenAI 融资额显示"6.6",但点击后发现来源显示"6.6 billion"——缺少了单位"B"。内联来源是验证 AI 结果可信度的关键模式。Rafael 指出,Perplexity 率先使用了编号圆点与答案内联的模式,标注每段回答来自哪个来源。正如学术论文中的脚注引用一样,这一古老模式正在 AI 软件中以新方式复兴——实时验证代理返回的信息。
Polyt:AI 产品设计师
Polyt 定位为"你的 AI 产品设计师",用户可以通过提示词生成可编辑的生产级代码。
提示词构建器的丰富性: Polyt 同样提供预构建的提示词示例,支持多模态输入(语音和图片)。评审选择了一个包含"玻璃拟态"(Glassmorphic)、"可折叠侧边栏"、"深橙色渐变"等设计术语的提示词。Rafael 指出,用户可能不熟悉这些专业设计术语,因此可以构建更丰富的提示词构建器——用可拖拽的"药丸"式设计术语模块,而非要求用户手动输入。
开放提示词的双刃剑: Aaron 指出开放提示词的好处是什么都能接受(包括"玻璃拟态"这样的专业术语),坏处也是什么都能接受——用户担心输入了一个术语,AI 不理解,等了两分钟生成出来的不是期望的东西,又得从头再来。
等待中的用户参与: 生成过程中出现幽默的进度提示(如"用镊子组装像素"),但消失太快。对于技术受众,Rafael 希望看到后台日志以便了解发生了什么。生成复杂输出(可编辑网页、图形、视频)需要很长时间,如何保持用户参与是核心设计挑战——如果足够短可以等待,如果需要几分钟则应告知用户完成后通知。
迭代编辑与一致性: 生成结果后,评审点击编辑按钮,在侧边栏上输入"把侧边栏改成蓝色"进行增量修改。这引发了一个关键讨论:能否只提交差异(Delta)而非从头重新生成?不仅为了速度,更为了保持一致性——尤其在图形生成中,修改一个元素(如帽子)而保持其余部分不变是常见挑战。反馈循环也很重要:AI 应该告诉用户它从提示词中理解并执行了哪些部分,忽略了哪些——类似拼写检查的波浪线标记,帮助人类优化提示词。
Zuni:自适应邮件应用
Zuni 专为创始人打造更智能的邮件应用,展示了自适应 AI 界面(Adaptive AI Interface)的模式。
自适应界面的定义: Rafael 解释,自适应界面根据内容(如邮件或文档)动态改变界面元素,而非传统软件中固定的按钮布局。输入是内容本身,AI 的输出是交互 UI。Aaron 以 Microsoft Word 为例——顶部显示大量按钮是因为不知道用户需要哪个;有了 AI,只需显示与当前上下文相关的按钮。
抽象层级的选择: Zuni 展示了三封重要邮件,每封旁边提供自适应的回复建议。评审讨论了"正确的回复抽象层级":是让 AI 完全自动回复(自动驾驶模式)?还是像 Zuni 这样在中间——没有草稿但有自适应的预定义提示供选择?还是更底层的自动补全?Rafael 建议一个有趣的改进:让最佳猜测的草稿已经坐在收件箱中,用户可以在更高层级上提示修改。
键盘快捷键的巧妙设计: Zuni 用单字母快捷键(如 Y 确认时间、Enter 生成邮件)让用户无需鼠标即可高效处理邮件。由于用户已经手在键盘上,这种设计非常到位。而且虽然按钮内容随每封邮件变化,但按键本身保持不变,用户形成了可预期的操作节奏。
焦点与快捷键冲突: Rafael 指出一个交互设计挑战:没有修饰键(如 Command)的快捷键可能与文本输入冲突——如果用户以为光标在文本框中输入"y"表示"yes",却意外触发了按钮操作。清晰标示输入焦点状态至关重要。
Argil:AI 视频工作室
最后一款产品是 Argil,一个类似 AI 视频工作室的产品,可以创建深度伪造(Deepfake)视频。
脚本驱动的视频生成: 用户可以在文本框中输入自定义脚本,让 AI 分身说出任意内容。每个段落可以设置不同的镜头角度和肢体语言(如"指向自己")。评审建议未来可以自动检测脚本中的情感标记并匹配肢体语言,或者在文本上高亮选择后从下拉菜单中选择建议的动作。
低保真换快速迭代: 生成过程中,视频先以模糊版本配合音频快速呈现,完整的视频生成(含唇形同步)需要约 12 分钟。这是一个巧妙的设计策略——用保真度(Fidelity)换取延迟(Latency),让用户快速迭代脚本,完整视频稍后生成。如果只有生成按钮,用户需要等 12 分钟才发现脚本不对,再修改再等待。
训练数据需求: 只需几分钟的说话视频即可自动训练生成深度伪造模型。
核心收获: 在延迟和保真度之间做权衡,将人类保持在迭代循环中,是 AI 生成类产品的关键设计策略。
总结与展望
Rafael 总结道,当 LLM 技术刚出现时,一切似乎都是聊天框加提示词;但在短短一两年的时间内,AI 界面和 AI 组件已呈爆炸式增长,以 AI 原生方式构建,交互模态完全不同,迭代空间无穷无尽。
Aaron 补充说,这些界面的核心都是"动词"——创建视频、派代理执行任务——关键在于如何让用户保持在循环中并保持控制,同时让 AI 发挥魔力。他将其比作 2010 年触屏设备上市时的一切都需要"触屏优先"重新设计的时刻——我们现在正处于又一个这样的时刻,所有我们习以为常的软件组件都正在被建设者和设计师们重新想象和重塑。未来将令人难以置信。