Jared 预测:2025 年我们将能与 AI 进行 Zoom 视频通话

摘要
在这段简短的预测中,Jared 分享了他对 2025 年 AI 产品形态的期待:从语音通话到视频通话的跨越。2024 年是人们终于能够与 AI 进行自然流畅的语音通话的一年——延迟 (Latency) 降低到了足以让人感觉真实、自然的水平。Jared 认为,2025 年我们将迎来下一个里程碑:与 AI 进行类似 Zoom 通话的实时视频交互。届时,AI 将拥有面部表情和完整的虚拟形象 (Virtual Avatar),能够实时响应,让你感觉像是在屏幕上与一个 AI 人物互动。当前虽然已有一些类似产品,但延迟高、唇形同步 (Lip Syncing) 差,体验远未达到理想状态。Jared 将这一目标比作"3D 图灵测试" (3D Turing Test)——不仅是语言层面的智能,更是视觉和交互层面的拟真。这段讨论虽然轻松简短,却指向了 AI 交互方式从纯文本到语音、再到实时视频的演进方向。
正文
2024:语音通话的突破
2024 年是 AI 语音交互的关键转折点。这一年,人们终于能够与 AI 进行自然的电话对话——语音延迟降低到了足够低的水平,使得通话体验变得真实而自然。这一进步标志着人机交互 (Human-Computer Interaction) 从文本时代正式迈入语音时代。
2025:视频通话的下一个里程碑
Jared 对 2025 年的个人期待是一款真正可用的 AI 视频通话产品。他的预测是:我们将能够像进行 Zoom 通话一样与 AI 互动。这种交互将不仅仅是语音,而是包含一个面部、一个完整的虚拟形象 (Virtual Avatar),并且是实时的——你正在与屏幕上的一个 AI 人物互动。
当前产品的不足
虽然市场上已经存在一些类似的 AI 视频交互产品,但它们存在明显的问题:延迟 (Latency) 过高、唇形同步 (Lip Syncing) 效果差,整体体验远未达到良好水平。这些问题导致当前的 AI 视频交互仍然让人感到不自然,甚至陷入"恐怖谷" (Uncanny Valley) 效应——AI 形象看起来接近真实但又不够真实,反而令人不适。
3D 图灵测试
Jared 将这一目标形象地比喻为"3D 图灵测试" (3D Turing Test)。传统的图灵测试关注的是 AI 能否在文本对话中让人无法分辨其是否为机器,而 3D 图灵测试则更进一步——要求 AI 在视觉形象、面部表情、实时响应等多个维度上都能通过人类的判断。这是 AI 交互从平面走向立体、从单一模态走向多模态 (Multimodal) 的关键一步。