AI 智能体的下一次突破已经到来

cover

摘要

本文深入解析了由中国创业团队推出的通用 AI 智能体(General AI Agent)平台——Manus,它以多智能体架构(Multi-Agent Architecture)为核心,在 Gaia 基准测试中取得了 86.5% 的成绩,仅次于人类平均水平的 92%,远超 OpenAI 深度研究(Deep Research)的 74%。Manus 的工作方式如同一位高管统筹团队:规划智能体(Planner Agent)制定主计划,将任务分解为可管理的子任务,再交给各领域专属的子智能体(Sub-Agent)执行,最终由执行智能体(Executor Agent)合成输出。该平台集成了 29 种工具,底层采用 Anthropic 的 Claude 3.7 Sonnet 模型,并与 YC 孵化公司 Browser Use 及初创企业 E2B 的安全云沙盒(Cloud Sandbox)深度整合。文章同时探讨了 AI 应用层中"套壳"(Wrapper)模式的争议,分析了 Manus 的优势(低成本、高透明度、灵活可定制)与局限(协调复杂度随规模增长、护城河易被侵蚀),并为创始人提出了构建可持续差异化竞争壁垒的建议——投资专有评估体系(Proprietary Evals)、深度嵌入用户工作流以提高转换成本、锁定竞争对手难以复制的集成与数据源。

正文

通用 AI 智能体的时代来临

可用的 AI 智能体(AI Agent)终于到来了。从 OpenAI 和 Google 推出的深度研究(Deep Research)平台,到 xAI 和 DeepSeek 的类似工具,智能体赛道正变得日益拥挤。而现在,一个新的竞争者加入了战局——Manus,一个席卷全球的全新智能体 AI 平台。

今天,我们发布 Manus 的早期预览版——首个通用 AI 智能体。

Manus 正式发布后,围绕它的炒作立即引爆。有媒体将其称为"中国的下一个 DeepSeek 时刻",用户纷纷称其为"用过的最令人印象深刻的 AI 工具"和"最精密的计算机使用型 AI"。与之前的一些先行者不同,Manus 并非又一个专用聊天机器人——它承诺成为一个真正的通用 AI 智能体。然而,邀请码稀缺、访问权限受限,一个核心问题悬而未决:Manus 是否真正彻底改变了 AI 智能体的格局?

多智能体架构:Manus 的创新内核

Manus 背后的兴奋源于一项真正的创新:一个多智能体 AI 系统(Multi-Agent AI System),它似乎能够完成各种各样的任务——从旅行规划、金融分析,到搜索数十个文件或进行行业研究。

那么,它的工作原理是什么?

与依赖一个庞大神经网络的方式不同,Manus 更像是一位高管在监督一个子智能体团队,在共享的行动空间(Shared Action Space)中协调和指导它们的每一个行动。具体流程如下:

  1. 接收输入:Manus 接收用户的提示词(Prompt)作为输入,开始分析需要做什么。
  2. 规划分解:一个规划智能体(Planner Agent)首先制定一个主计划(Master Plan),将任务分解为可管理的子任务(Subtask)。这样,Manus 在执行之前就精确知道需要完成什么,并可以将这些子任务分配给其他子智能体。
  3. 子智能体执行:这些子智能体如同 Manus 的内部专家。它们共享相同的上下文,但各自拥有划定的领域——从知识/记忆到执行。Manus 可以调用多达 29 种不同的集成工具,无论是自动化网页导航、安全运行代码,还是从文件中提取重要信息,子智能体都能智能地决定使用哪些工具。
  4. 合成输出:当每个子任务完成后,执行智能体(Executor Agent)将所有输出组合成最终的合成输出,交付给用户。

核心技术:动态任务分解与思维链注入

在底层,Manus 由一个相当精密的动态任务分解算法(Dynamic Task Decomposition Algorithm)驱动。这正是它能够自主将复杂指令分解为清晰执行路径的关键。

为了确保即使在数十轮推理和工具使用之后仍保持稳定性,Manus 团队开发了一项原创技术——思维链注入(Chain of Thought Injection),使智能体能够主动反思和更新计划。

在模型层面,Manus 的核心采用了 Anthropic 的 Claude 3.7 Sonnet。此外,Manus 还具备强大的跨平台执行能力,这得益于其与开源工具的无缝集成:YC 孵化公司 Browser Use 提供高级网站交互能力,初创企业 E2B 提供安全的云沙盒环境(Cloud Sandbox Environment)。

实际应用与基准测试表现

Manus 到底能完成什么?令人印象深刻的是,它可以承担广泛的现实世界任务:

为了真正衡量 Manus 的能力,我们可以参考 Gaia 基准测试——一个专门用于挑战 AI 智能体在推理、多模态处理(Multimodal Handling)、网页浏览和工具熟练度方面的基准。人类通常得分约 92%,而 OpenAI 的深度研究在最佳情况下得分约 74%。Manus 以 86.5% 的成绩打破了 Gaia 上的最先进纪录,仅比人类平均水平低几个百分点。

"套壳"争议:应用层创业的本质

尽管基准测试表现令人瞩目,Manus 重新点燃了关于 AI 应用层创业本质的更广泛讨论——套壳(Wrapper)。

一些人将 Manus 斥为仅仅是"套壳",因为它只是将现有的基础模型(Foundational Model)和各种工具调用拼接在一起。但这种否定忽视了一个重要的现实:按照这个逻辑,当今大多数成功的 AI 产品也可以被归类为套壳。

显然,许多有用的应用确实符合套壳的模式。对于许多开发者来说,走这条路是有道理的。正如 Manus 联合创始人 Yichao "Peak" G 本人告诉我们的:从第一天起,他们就决定与模型开发保持正交(Orthogonal)——希望对每一个新模型的发布感到兴奋,而非感到威胁。

优秀套壳的差异化要素

区分成功套壳与低效同类的,通常是以下几个方面:

Manus 本身很好地阐释了这些权衡:

优势方面:

局限方面:

创始人的启示:构建可持续的差异化

最终,关键挑战不在于判断套壳是否可行,而在于识别产品中真正可持续的差异化(Sustainable Differentiation)。对于创始人而言,这可能意味着:

  1. 投资专有评估体系——昂贵或耗时,但竞争对手难以复制。
  2. 将工作流深度嵌入特定用户日常——以提高转换成本(Switching Cost)。
  3. 锁定竞争对手难以访问的集成或数据集

归根结底,AI 领域的成功不取决于重新发明轮子,而在于谁能将现有模型拼接成一个用户真正热爱的产品。