Jared 预测：2025 年我们将能与 AI 进行 Zoom 视频通话

cover

摘要

在这段简短的预测中，Jared 分享了他对 2025 年 AI 产品形态的期待：从语音通话到视频通话的跨越。2024 年是人们终于能够与 AI 进行自然流畅的语音通话的一年——延迟 (Latency) 降低到了足以让人感觉真实、自然的水平。Jared 认为，2025 年我们将迎来下一个里程碑：与 AI 进行类似 Zoom 通话的实时视频交互。届时，AI 将拥有面部表情和完整的虚拟形象 (Virtual Avatar)，能够实时响应，让你感觉像是在屏幕上与一个 AI 人物互动。当前虽然已有一些类似产品，但延迟高、唇形同步 (Lip Syncing) 差，体验远未达到理想状态。Jared 将这一目标比作"3D 图灵测试" (3D Turing Test)——不仅是语言层面的智能，更是视觉和交互层面的拟真。这段讨论虽然轻松简短，却指向了 AI 交互方式从纯文本到语音、再到实时视频的演进方向。

正文

2024：语音通话的突破

2024 年是 AI 语音交互的关键转折点。这一年，人们终于能够与 AI 进行自然的电话对话——语音延迟降低到了足够低的水平，使得通话体验变得真实而自然。这一进步标志着人机交互 (Human-Computer Interaction) 从文本时代正式迈入语音时代。

2025：视频通话的下一个里程碑

Jared 对 2025 年的个人期待是一款真正可用的 AI 视频通话产品。他的预测是：我们将能够像进行 Zoom 通话一样与 AI 互动。这种交互将不仅仅是语音，而是包含一个面部、一个完整的虚拟形象 (Virtual Avatar)，并且是实时的——你正在与屏幕上的一个 AI 人物互动。

当前产品的不足

虽然市场上已经存在一些类似的 AI 视频交互产品，但它们存在明显的问题：延迟 (Latency) 过高、唇形同步 (Lip Syncing) 效果差，整体体验远未达到良好水平。这些问题导致当前的 AI 视频交互仍然让人感到不自然，甚至陷入"恐怖谷" (Uncanny Valley) 效应——AI 形象看起来接近真实但又不够真实，反而令人不适。

3D 图灵测试

Jared 将这一目标形象地比喻为"3D 图灵测试" (3D Turing Test)。传统的图灵测试关注的是 AI 能否在文本对话中让人无法分辨其是否为机器，而 3D 图灵测试则更进一步——要求 AI 在视觉形象、面部表情、实时响应等多个维度上都能通过人类的判断。这是 AI 交互从平面走向立体、从单一模态走向多模态 (Multimodal) 的关键一步。