AI 智能体的下一次突破已经到来

cover

摘要

本文深入解析了由中国创业团队推出的通用 AI 智能体（General AI Agent）平台——Manus，它以多智能体架构（Multi-Agent Architecture）为核心，在 Gaia 基准测试中取得了 86.5% 的成绩，仅次于人类平均水平的 92%，远超 OpenAI 深度研究（Deep Research）的 74%。Manus 的工作方式如同一位高管统筹团队：规划智能体（Planner Agent）制定主计划，将任务分解为可管理的子任务，再交给各领域专属的子智能体（Sub-Agent）执行，最终由执行智能体（Executor Agent）合成输出。该平台集成了 29 种工具，底层采用 Anthropic 的 Claude 3.7 Sonnet 模型，并与 YC 孵化公司 Browser Use 及初创企业 E2B 的安全云沙盒（Cloud Sandbox）深度整合。文章同时探讨了 AI 应用层中"套壳"（Wrapper）模式的争议，分析了 Manus 的优势（低成本、高透明度、灵活可定制）与局限（协调复杂度随规模增长、护城河易被侵蚀），并为创始人提出了构建可持续差异化竞争壁垒的建议——投资专有评估体系（Proprietary Evals）、深度嵌入用户工作流以提高转换成本、锁定竞争对手难以复制的集成与数据源。

正文

通用 AI 智能体的时代来临

可用的 AI 智能体（AI Agent）终于到来了。从 OpenAI 和 Google 推出的深度研究（Deep Research）平台，到 xAI 和 DeepSeek 的类似工具，智能体赛道正变得日益拥挤。而现在，一个新的竞争者加入了战局——Manus，一个席卷全球的全新智能体 AI 平台。

今天，我们发布 Manus 的早期预览版——首个通用 AI 智能体。

Manus 正式发布后，围绕它的炒作立即引爆。有媒体将其称为"中国的下一个 DeepSeek 时刻"，用户纷纷称其为"用过的最令人印象深刻的 AI 工具"和"最精密的计算机使用型 AI"。与之前的一些先行者不同，Manus 并非又一个专用聊天机器人——它承诺成为一个真正的通用 AI 智能体。然而，邀请码稀缺、访问权限受限，一个核心问题悬而未决：Manus 是否真正彻底改变了 AI 智能体的格局？

多智能体架构：Manus 的创新内核

Manus 背后的兴奋源于一项真正的创新：一个多智能体 AI 系统（Multi-Agent AI System），它似乎能够完成各种各样的任务——从旅行规划、金融分析，到搜索数十个文件或进行行业研究。

那么，它的工作原理是什么？

与依赖一个庞大神经网络的方式不同，Manus 更像是一位高管在监督一个子智能体团队，在共享的行动空间（Shared Action Space）中协调和指导它们的每一个行动。具体流程如下：

接收输入：Manus 接收用户的提示词（Prompt）作为输入，开始分析需要做什么。
规划分解：一个规划智能体（Planner Agent）首先制定一个主计划（Master Plan），将任务分解为可管理的子任务（Subtask）。这样，Manus 在执行之前就精确知道需要完成什么，并可以将这些子任务分配给其他子智能体。
子智能体执行：这些子智能体如同 Manus 的内部专家。它们共享相同的上下文，但各自拥有划定的领域——从知识/记忆到执行。Manus 可以调用多达 29 种不同的集成工具，无论是自动化网页导航、安全运行代码，还是从文件中提取重要信息，子智能体都能智能地决定使用哪些工具。
合成输出：当每个子任务完成后，执行智能体（Executor Agent）将所有输出组合成最终的合成输出，交付给用户。

核心技术：动态任务分解与思维链注入

在底层，Manus 由一个相当精密的动态任务分解算法（Dynamic Task Decomposition Algorithm）驱动。这正是它能够自主将复杂指令分解为清晰执行路径的关键。

为了确保即使在数十轮推理和工具使用之后仍保持稳定性，Manus 团队开发了一项原创技术——思维链注入（Chain of Thought Injection），使智能体能够主动反思和更新计划。

在模型层面，Manus 的核心采用了 Anthropic 的 Claude 3.7 Sonnet。此外，Manus 还具备强大的跨平台执行能力，这得益于其与开源工具的无缝集成：YC 孵化公司 Browser Use 提供高级网站交互能力，初创企业 E2B 提供安全的云沙盒环境（Cloud Sandbox Environment）。

实际应用与基准测试表现

Manus 到底能完成什么？令人印象深刻的是，它可以承担广泛的现实世界任务：

创建旅行行程
进行详细的金融分析
生成教育内容
编制结构化数据库
保险政策比较
供应商寻源
协助制作高质量演示文稿

为了真正衡量 Manus 的能力，我们可以参考 Gaia 基准测试——一个专门用于挑战 AI 智能体在推理、多模态处理（Multimodal Handling）、网页浏览和工具熟练度方面的基准。人类通常得分约 92%，而 OpenAI 的深度研究在最佳情况下得分约 74%。Manus 以 86.5% 的成绩打破了 Gaia 上的最先进纪录，仅比人类平均水平低几个百分点。

"套壳"争议：应用层创业的本质

尽管基准测试表现令人瞩目，Manus 重新点燃了关于 AI 应用层创业本质的更广泛讨论——套壳（Wrapper）。

一些人将 Manus 斥为仅仅是"套壳"，因为它只是将现有的基础模型（Foundational Model）和各种工具调用拼接在一起。但这种否定忽视了一个重要的现实：按照这个逻辑，当今大多数成功的 AI 产品也可以被归类为套壳。

Cursor 和 Windsurf：集成了现有的大语言模型（LLM），并搭配外部 API 和面向开发者的工具，如实时代码分析和调试工具。
Harvey：将基础模型与法律领域的特定工具集成相结合——案例法检索（Case Law Retrieval）、合规检查（Compliance Check）和文档分析。

显然，许多有用的应用确实符合套壳的模式。对于许多开发者来说，走这条路是有道理的。正如 Manus 联合创始人 Yichao "Peak" G 本人告诉我们的：从第一天起，他们就决定与模型开发保持正交（Orthogonal）——希望对每一个新模型的发布感到兴奋，而非感到威胁。

优秀套壳的差异化要素

区分成功套壳与低效同类的，通常是以下几个方面：

直观的用户界面（Intuitive UI）
专有评估体系（Proprietary Evals）
更精细的基础模型微调（Fine-Tuning）
精心设计的多智能体架构（Multi-Agent Architecture）

Manus 本身很好地阐释了这些权衡：

优势方面：

多智能体编排帮助实现了显著降低的单任务成本——约每个任务 2 美元，相比之下，OpenAI 深度研究等集成竞争对手的成本更高。
Manus 提供更高的透明度和用户控制度，允许用户直接检查、自定义或替换各个子智能体和工具集成——这是集中式平台很少能匹配的灵活性。
Manus 最酷的一点是暴露了文件系统，让你可以确切看到智能体在做什么。ChatGPT 要求你重新提示，而且它思考时发生什么是不可见的。Manus 让人一窥 ChatGPT 桌面操作系统直接运行在电脑上的未来图景。

局限方面：

随着任务规模扩大或复杂度增长，专门智能体之间的协调变得越来越困难。
更关键的是，它当前的优势——用户体验优化、定向微调、精心设计的集成——容易被竞争对手复制。
套壳模式虽然允许快速部署、迭代和专业化用户体验，且前期成本更低，但也容易受到 API 定价变化或提供商政策转变等颠覆性影响，这些变化可能迅速抹去任何成本优势。

创始人的启示：构建可持续的差异化

最终，关键挑战不在于判断套壳是否可行，而在于识别产品中真正可持续的差异化（Sustainable Differentiation）。对于创始人而言，这可能意味着：

投资专有评估体系——昂贵或耗时，但竞争对手难以复制。
将工作流深度嵌入特定用户日常——以提高转换成本（Switching Cost）。
锁定竞争对手难以访问的集成或数据集。

归根结底，AI 领域的成功不取决于重新发明轮子，而在于谁能将现有模型拼接成一个用户真正热爱的产品。