AI 智能体的下一次突破已经到来

摘要
本文深入解析了由中国创业团队推出的通用 AI 智能体(General AI Agent)平台——Manus,它以多智能体架构(Multi-Agent Architecture)为核心,在 Gaia 基准测试中取得了 86.5% 的成绩,仅次于人类平均水平的 92%,远超 OpenAI 深度研究(Deep Research)的 74%。Manus 的工作方式如同一位高管统筹团队:规划智能体(Planner Agent)制定主计划,将任务分解为可管理的子任务,再交给各领域专属的子智能体(Sub-Agent)执行,最终由执行智能体(Executor Agent)合成输出。该平台集成了 29 种工具,底层采用 Anthropic 的 Claude 3.7 Sonnet 模型,并与 YC 孵化公司 Browser Use 及初创企业 E2B 的安全云沙盒(Cloud Sandbox)深度整合。文章同时探讨了 AI 应用层中"套壳"(Wrapper)模式的争议,分析了 Manus 的优势(低成本、高透明度、灵活可定制)与局限(协调复杂度随规模增长、护城河易被侵蚀),并为创始人提出了构建可持续差异化竞争壁垒的建议——投资专有评估体系(Proprietary Evals)、深度嵌入用户工作流以提高转换成本、锁定竞争对手难以复制的集成与数据源。
正文
通用 AI 智能体的时代来临
可用的 AI 智能体(AI Agent)终于到来了。从 OpenAI 和 Google 推出的深度研究(Deep Research)平台,到 xAI 和 DeepSeek 的类似工具,智能体赛道正变得日益拥挤。而现在,一个新的竞争者加入了战局——Manus,一个席卷全球的全新智能体 AI 平台。
今天,我们发布 Manus 的早期预览版——首个通用 AI 智能体。
Manus 正式发布后,围绕它的炒作立即引爆。有媒体将其称为"中国的下一个 DeepSeek 时刻",用户纷纷称其为"用过的最令人印象深刻的 AI 工具"和"最精密的计算机使用型 AI"。与之前的一些先行者不同,Manus 并非又一个专用聊天机器人——它承诺成为一个真正的通用 AI 智能体。然而,邀请码稀缺、访问权限受限,一个核心问题悬而未决:Manus 是否真正彻底改变了 AI 智能体的格局?
多智能体架构:Manus 的创新内核
Manus 背后的兴奋源于一项真正的创新:一个多智能体 AI 系统(Multi-Agent AI System),它似乎能够完成各种各样的任务——从旅行规划、金融分析,到搜索数十个文件或进行行业研究。
那么,它的工作原理是什么?
与依赖一个庞大神经网络的方式不同,Manus 更像是一位高管在监督一个子智能体团队,在共享的行动空间(Shared Action Space)中协调和指导它们的每一个行动。具体流程如下:
- 接收输入:Manus 接收用户的提示词(Prompt)作为输入,开始分析需要做什么。
- 规划分解:一个规划智能体(Planner Agent)首先制定一个主计划(Master Plan),将任务分解为可管理的子任务(Subtask)。这样,Manus 在执行之前就精确知道需要完成什么,并可以将这些子任务分配给其他子智能体。
- 子智能体执行:这些子智能体如同 Manus 的内部专家。它们共享相同的上下文,但各自拥有划定的领域——从知识/记忆到执行。Manus 可以调用多达 29 种不同的集成工具,无论是自动化网页导航、安全运行代码,还是从文件中提取重要信息,子智能体都能智能地决定使用哪些工具。
- 合成输出:当每个子任务完成后,执行智能体(Executor Agent)将所有输出组合成最终的合成输出,交付给用户。
核心技术:动态任务分解与思维链注入
在底层,Manus 由一个相当精密的动态任务分解算法(Dynamic Task Decomposition Algorithm)驱动。这正是它能够自主将复杂指令分解为清晰执行路径的关键。
为了确保即使在数十轮推理和工具使用之后仍保持稳定性,Manus 团队开发了一项原创技术——思维链注入(Chain of Thought Injection),使智能体能够主动反思和更新计划。
在模型层面,Manus 的核心采用了 Anthropic 的 Claude 3.7 Sonnet。此外,Manus 还具备强大的跨平台执行能力,这得益于其与开源工具的无缝集成:YC 孵化公司 Browser Use 提供高级网站交互能力,初创企业 E2B 提供安全的云沙盒环境(Cloud Sandbox Environment)。
实际应用与基准测试表现
Manus 到底能完成什么?令人印象深刻的是,它可以承担广泛的现实世界任务:
- 创建旅行行程
- 进行详细的金融分析
- 生成教育内容
- 编制结构化数据库
- 保险政策比较
- 供应商寻源
- 协助制作高质量演示文稿
为了真正衡量 Manus 的能力,我们可以参考 Gaia 基准测试——一个专门用于挑战 AI 智能体在推理、多模态处理(Multimodal Handling)、网页浏览和工具熟练度方面的基准。人类通常得分约 92%,而 OpenAI 的深度研究在最佳情况下得分约 74%。Manus 以 86.5% 的成绩打破了 Gaia 上的最先进纪录,仅比人类平均水平低几个百分点。
"套壳"争议:应用层创业的本质
尽管基准测试表现令人瞩目,Manus 重新点燃了关于 AI 应用层创业本质的更广泛讨论——套壳(Wrapper)。
一些人将 Manus 斥为仅仅是"套壳",因为它只是将现有的基础模型(Foundational Model)和各种工具调用拼接在一起。但这种否定忽视了一个重要的现实:按照这个逻辑,当今大多数成功的 AI 产品也可以被归类为套壳。
- Cursor 和 Windsurf:集成了现有的大语言模型(LLM),并搭配外部 API 和面向开发者的工具,如实时代码分析和调试工具。
- Harvey:将基础模型与法律领域的特定工具集成相结合——案例法检索(Case Law Retrieval)、合规检查(Compliance Check)和文档分析。
显然,许多有用的应用确实符合套壳的模式。对于许多开发者来说,走这条路是有道理的。正如 Manus 联合创始人 Yichao "Peak" G 本人告诉我们的:从第一天起,他们就决定与模型开发保持正交(Orthogonal)——希望对每一个新模型的发布感到兴奋,而非感到威胁。
优秀套壳的差异化要素
区分成功套壳与低效同类的,通常是以下几个方面:
- 直观的用户界面(Intuitive UI)
- 专有评估体系(Proprietary Evals)
- 更精细的基础模型微调(Fine-Tuning)
- 精心设计的多智能体架构(Multi-Agent Architecture)
Manus 本身很好地阐释了这些权衡:
优势方面:
- 多智能体编排帮助实现了显著降低的单任务成本——约每个任务 2 美元,相比之下,OpenAI 深度研究等集成竞争对手的成本更高。
- Manus 提供更高的透明度和用户控制度,允许用户直接检查、自定义或替换各个子智能体和工具集成——这是集中式平台很少能匹配的灵活性。
- Manus 最酷的一点是暴露了文件系统,让你可以确切看到智能体在做什么。ChatGPT 要求你重新提示,而且它思考时发生什么是不可见的。Manus 让人一窥 ChatGPT 桌面操作系统直接运行在电脑上的未来图景。
局限方面:
- 随着任务规模扩大或复杂度增长,专门智能体之间的协调变得越来越困难。
- 更关键的是,它当前的优势——用户体验优化、定向微调、精心设计的集成——容易被竞争对手复制。
- 套壳模式虽然允许快速部署、迭代和专业化用户体验,且前期成本更低,但也容易受到 API 定价变化或提供商政策转变等颠覆性影响,这些变化可能迅速抹去任何成本优势。
创始人的启示:构建可持续的差异化
最终,关键挑战不在于判断套壳是否可行,而在于识别产品中真正可持续的差异化(Sustainable Differentiation)。对于创始人而言,这可能意味着:
- 投资专有评估体系——昂贵或耗时,但竞争对手难以复制。
- 将工作流深度嵌入特定用户日常——以提高转换成本(Switching Cost)。
- 锁定竞争对手难以访问的集成或数据集。
归根结底,AI 领域的成功不取决于重新发明轮子,而在于谁能将现有模型拼接成一个用户真正热爱的产品。