石頭會說話,現在更能操作你的電腦:Anthropic Claude Computer Use 如何開啟AI代理新紀元 | YC解碼

cover

摘要

2024年10月,AI領域迎來了範式轉移的關鍵一步。Anthropic公司不僅發佈了升級版的Claude 3.5模型家族,更推出了一項名為「Computer Use」的突破性功能,使AI首次能以通用方式直接操控電腦。這項技術的核心革新在於,模型不再需要人類為其打造專門的客製化工具與環境,而是能夠像人類一樣,通過觀看屏幕截圖,理解圖形使用者界面,並精確到像素級別地執行點擊按鈕、輸入文字、瀏覽網頁等操作,實現了從「改造工具適應模型」到「讓模型駕馭既有工具」的關鍵逆轉。雖然仍處於公開測試階段,Claude Computer Use已展現出驚人的泛化能力,從自動化填寫電子表格、規劃行程並在日曆中創建事件,到監控建築工地安全合規性等複雜任務都能勝任。然而,這項技術也面臨著運行速度較慢、偶爾崩潰或分心、以及提示注入等安全風險的挑戰。儘管如此,Computer Use的出現無疑大幅降低了軟體開發的自動化門檻,預示著一個AI代理不再僅僅是助手,而是能夠獨立承擔整個團隊工作的未來。隨著Anthropic的快速迭代和初創公司的入局,如YC校友公司Kura已在此基礎上研發出更先進的瀏覽器代理,即將徹底重塑我們開發軟體、經營公司和日常生活的方式。

正文

AI代理時代的序章:岩石不再只是觀看

過去,人工智慧模型已經證明它們能交談、能閱讀和觀看圖像。現在,它們邁出了更具革命性的一步:能夠自主使用電腦。這意味著AI可以獨立瀏覽網頁、點擊按鈕、輸入文字,無需人類逐步指引。這標誌著AI代理(AI Agents)時代的正式降臨,而率先走出實驗室、引領這股浪潮的產品之一,就是Anthropic公司推出的Claude Computer Use功能。這項創舉不僅僅是模型升級,更預示著AI與數位世界互動方式的根本性變革。

巨頭爭霸:誰在塑造AI代理的未來

在AI代理這條賽道上,Anthropic並非唯一的參賽者。業界早已暗流湧動,各大巨頭均有佈局。OpenAI的執行長山姆·奧特曼(Sam Altman)曾表示,他正在致力於打造類似電影《雲端情人》(Her)中的人工智慧「莎曼珊」(Samantha),並且OpenAI據傳將在新的一年發佈其自家的AI代理「Operator」。與此同時,Google也在進行類似的研發。AI代理的競爭格局正在迅速成形,而在這場軍備競賽中,Anthropic作為主要的AI實驗室之一,率先將產品推向市場,佔據了先機。儘管Claude Computer Use目前仍處於公開測試(Public Beta)階段,供開發者們進行測試與探索,但它已初步展現出顛覆遊戲規則的潛力。

從「適配工具」到「駕馭工具」的範式轉移

Claude Computer Use的工作原理,是建立在Anthropic模型長期以來的圖像理解能力之上的。自2024年3月的Claude 3模型起,Claude就已經具備了分析圖像並以文字回應的能力。Computer Use的創新之處在於,Anthropic將這些圖像設定為「電腦屏幕截圖」,並訓練模型做出相應的回應:它會給出屏幕上可供點擊的像素坐標,或者需要按下的鍵盤按鈕。令人驚嘆的是,僅需相對少量的額外訓練,模型就能很好地掌握這項任務,這正是AI 泛化能力(Generalization)的一個典範。為此,Anthropic必須訓練Claude精確識別屏幕上的位置,精細到像素(Pixel)級別,讓它能理解屏幕上正在發生的事情,並推理出應如何使用其軟體工具來完成任務。
這項能力背後的理念,代表了一次根本性的轉變。過去,開發者必須為AI模型打造專門的工具,為其設計客製化的環境,讓AI使用這些特製工具去執行特定任務,也就是「讓工具適應模型」。現在,Computer Use賦予了我們直接「讓模型適應既有工具」的能力。這是一次強大的逆轉,意味著AI可以直接操作人類日常使用的任何軟體和網站,無需為其建立額外的中間層或API,這極大地拓展了AI代理的應用邊界。

深入解析Claude Computer Use的技術內核

為了確保安全與隔離,開發者必須在虛擬機器或容器(如Docker)中運行Computer Use,並配備Anthropic的API金鑰。啟動後,一個專用的瀏覽器視窗會被打開,左側顯示使用者提示,右側則即時展示Claude的活動。Claude的工作流程始於分析使用者提示,並決定使用何種工具。在工作過程中,它會在每一個步驟進行螢幕截圖,用以核驗進度,確保任務在正軌上運行。這個過程形成了一個可重複的迴圈:決策 → 評估 → 行動。這被稱為代理迴圈(Agent Loop),正是Claude能夠獨自處理複雜、多步驟任務的關鍵機制。如果發現需要調整,Claude會迴圈回去嘗試不同的行動或工具,直到任務完成。例如,當被要求自動化一項枯燥的重複性任務時,Claude會開始對屏幕進行截圖,迅速發現螢幕上缺乏完成任務所需的關鍵訊息。幸運的是,它能找到搜尋匹配項,然後開始滾動頁面,尋找所需的一切信息來填寫表單。

實戰檢驗:從自動化填表到安全巡檢

Anthropic在其官方演示中展示了Computer Use的多樣化能力。在其中一個案例中,Claude幫助用戶規劃在金門大橋的日出健行,它自主搜尋網路、釐清重要細節,然後在Google日曆中創建了一個事件。在另一個更具挑戰性的例子中,華頓商學院教授伊森·莫里克(Ethan Mollick)對Claude Computer Use進行了測試,他提供給Claude一段建築工地的影片,提示它監控工地並尋找安全問題。結果顯示,Claude不斷進行畫面截圖,分析工地的不同部分,記錄所有裝備和材料,並試圖找出任何潛在問題。最後,它甚至將所有發現整理到一份整潔的電子表格中,實現了自動化的職業安全與健康管理局合規性檢查(OSHA Compliance Check)。這些案例清晰地表明,Computer Use能將過去需要耗費大量人力的監控與文書工作,轉變為AI代理的一項常規任務。

尚未成熟的潛力股:速度、可靠與安全的權衡

作為一項仍在發展中的技術,Claude Computer Use並非完美無缺,它存在一些缺陷與限制。首先,它的運行速度明顯慢於典型的AI模型,並且偶爾會出現崩潰,可靠性(Reliability)仍是早期的一大顧慮。有時,Claude會在工具選擇上出錯、感到困惑,甚至偏離任務。在Anthropic分享的一次操作記錄中,Claude在執行任務途中,突然莫名其妙地開始搜索美國黃石國家公園的圖片。當然,這或許可以理解,畢竟人類也時常分心。在安全性方面,Claude內建了護欄機制,會刻意避免諸如創建帳戶或為社交媒體生成內容等可能被濫用的行為。然而,它仍然容易受到提示注入(Prompt Injection)攻擊——這是一種安全風險,惡意指令可能被嵌入在它造訪的線上資源中,誘騙模型遵循這些惡意指令而非原始提示。想像一個網站通過提示注入,誘導Claude上傳你密碼管理器中的所有內容,後果將不堪設想。為應對此風險,Anthropic目前將Claude的所有行動限制在安全的虛擬機器中,限制其訪問敏感資料,並嚴格控制其可訪問的網站。不過,許多限制可能很快會被解除,因為這只是公開測試的開端。

展望未來:重塑工作與生活的智能體

Anthropic已明確表示,Computer Use將迅速改進,變得更快、更可靠、更能滿足用戶的需求。與此同時,大量初創公司也正蜂擁而至。例如,Y Combinator孵化的公司Kura,近期就發佈了自家的瀏覽器代理,其在網頁航行標竿測試(Web Voyager Benchmark)上的表現似乎已超越Claude Computer Use,達到了新的業界頂尖水準(State-of-the-art)。在不遠的將來,具備完全使用和控制電腦能力的大型語言模型(LLMs)將重塑一切。這將顛覆開發者編寫軟體的方式,改變執行長們運營公司的方式,甚至從根本上影響我們所有人的日常生活。每一個突破性的應用都將轉變我們的工作、連結和生活模式。這種AI將不再只是一個被動的助手,它將能獨立承擔那些過去需要整個團隊或公司才能完成的完整任務。問題不再是AI能否做到,而是:你將用Computer Use來構建什麼樣的未來?