浏览器与计算机自动化

cover

摘要

AI智能体（AI Agent）现已能够浏览网页并操作桌面应用程序。OpenAI的Operator和Anthropic的Computer Use功能已经证明了这一能力的可行性，同时也有多款优秀的开源方案可供选择。让AI智能体使用网页，就好比给"罐中之脑"装上了双手——它终于能够真正地执行操作了。这意味着每一个网站和每一个应用程序现在都相当于拥有了一个API，而任何人类能在计算机上完成的工作流程都可以被完全自动化。Y Combinator认为，这将使AI智能体的可寻址用例（Addressable Use Cases）扩大约10倍，并期待看到开发者们用这一能力创造出怎样的产品。

正文

AI智能体的新能力：操控浏览器与桌面应用

AI智能体的发展正在进入一个全新阶段。过去，AI只能通过API接口与外部服务交互，而现在，AI智能体已经能够直接浏览网页并操作桌面应用程序。OpenAI发布的Operator和Anthropic推出的Computer Use（计算机使用）功能，率先展示了这一技术方向的可行性。与此同时，开源社区也提供了多个优秀的替代方案，使得这一能力不再是少数大公司的专属。

核心类比：给"罐中之脑"装上双手

Y Combinator用了一个生动的类比来解释这一突破的意义：让AI智能体使用网页，就像把一个"罐中之脑"（Brain in a Jar）赋予了双手。此前，AI拥有智能却无法直接行动；现在，它不仅能"思考"，还能"动手操作"。这种从纯认知到认知加行动的跨越，标志性的改变了AI的能力边界。

两个深远影响

这一突破带来了两个深远影响。第一，每一个网站和每一个应用程序现在都相当于拥有了一个API——即使它们从未提供过正式的编程接口，AI智能体也能通过模拟用户操作来与之交互。第二，任何人类能在计算机上完成的工作流程（Workflow），都可以被完全自动化。从数据录入到跨系统操作，从信息检索到复杂的多步骤业务流程，AI智能体现在都能接管。

用例规模十倍增长

Y Combinator判断，这一能力将使AI智能体的可寻址用例（Addressable Use Cases）扩大约10倍。此前受限于API可用性的大量场景，现在因为AI能够直接操作用户界面而变得可行。YC对开发者们将用这一能力构建怎样的产品充满期待。