浏览器与计算机自动化

cover

摘要

AI智能体(AI Agent)现已能够浏览网页并操作桌面应用程序。OpenAI的Operator和Anthropic的Computer Use功能已经证明了这一能力的可行性,同时也有多款优秀的开源方案可供选择。让AI智能体使用网页,就好比给"罐中之脑"装上了双手——它终于能够真正地执行操作了。这意味着每一个网站和每一个应用程序现在都相当于拥有了一个API,而任何人类能在计算机上完成的工作流程都可以被完全自动化。Y Combinator认为,这将使AI智能体的可寻址用例(Addressable Use Cases)扩大约10倍,并期待看到开发者们用这一能力创造出怎样的产品。

正文

AI智能体的新能力:操控浏览器与桌面应用

AI智能体的发展正在进入一个全新阶段。过去,AI只能通过API接口与外部服务交互,而现在,AI智能体已经能够直接浏览网页并操作桌面应用程序。OpenAI发布的Operator和Anthropic推出的Computer Use(计算机使用)功能,率先展示了这一技术方向的可行性。与此同时,开源社区也提供了多个优秀的替代方案,使得这一能力不再是少数大公司的专属。

核心类比:给"罐中之脑"装上双手

Y Combinator用了一个生动的类比来解释这一突破的意义:让AI智能体使用网页,就像把一个"罐中之脑"(Brain in a Jar)赋予了双手。此前,AI拥有智能却无法直接行动;现在,它不仅能"思考",还能"动手操作"。这种从纯认知到认知加行动的跨越,标志性的改变了AI的能力边界。

两个深远影响

这一突破带来了两个深远影响。第一,每一个网站和每一个应用程序现在都相当于拥有了一个API——即使它们从未提供过正式的编程接口,AI智能体也能通过模拟用户操作来与之交互。第二,任何人类能在计算机上完成的工作流程(Workflow),都可以被完全自动化。从数据录入到跨系统操作,从信息检索到复杂的多步骤业务流程,AI智能体现在都能接管。

用例规模十倍增长

Y Combinator判断,这一能力将使AI智能体的可寻址用例(Addressable Use Cases)扩大约10倍。此前受限于API可用性的大量场景,现在因为AI能够直接操作用户界面而变得可行。YC对开发者们将用这一能力构建怎样的产品充满期待。