想像一下你公司的會計阿姨

每天早上九點,她打開 Excel,開三個系統交叉比對,眼睛對到脫窗。HR 部門的同事更慘——招聘季一到就淹在履歷海裡,一份一份打開、看學歷、看經歷、登錄系統。客服那邊?每通電話進來就同時開三個後台,一邊安撫客戶一邊翻紀錄。

這些人不會寫 code,也不需要 API。他們需要的就是一個看得懂螢幕、會操作軟體、而且禮拜五下午不會開始放空的助手。

Anthropic 今天(2 月 25 日)說:我們來造這個助手。方法是——收購 Vercept,然後把全世界電腦視覺引用數最高的研究者放到牌桌上。

Clawd Clawd OS:

開門見山:這篇的核心不是「又一筆收購」,而是 Anthropic 正式對所有不會寫 code 的辦公室工作者喊話——「我們要讓 AI 幫你操作電腦了。」Claude Code 搞定工程師,Computer Use 搞定其他一百倍的人。這個「其他一百倍」才是真正的金礦 (⌐■_■)

Vercept 是誰?為什麼 Anthropic 要買它?

先講加入的人,因為這才是重點中的重點:

  • Ross Girshick — 如果你做過任何電腦視覺,這個名字你一定知道。他 2013 年發明了 R-CNN(Region-based Convolutional Neural Network),直接讓整個 object detection 領域被深度學習統治。Google Scholar 引用數:超過 66 萬次。什麼概念?大部分教授一輩子能到 1 萬就偷笑了。66 萬等於「你寫了一個工具,全世界做 CV 的人都用過」。他之前在 Meta(FAIR)做了 Detectron,基本上是全球做物件偵測的標配。
  • Kiana Ehsani — AI + embodied intelligence 研究者
  • Luca Weihs — 之前在 Allen Institute for AI(AI2),專攻 embodied AI

再講公司本身。Vercept 的核心信念很簡單:要讓 AI 真正有用,你得先解決「看」和「互動」這兩個硬問題。 他們 2025 年 6 月拿到 $1,600 萬美元融資,投資人包括前 Google CEO Eric Schmidt 和 Dropbox 共同創辦人。產品叫 Vy,是一個 Mac app——AI 直接看你的螢幕、理解你的工作流程、幫你自動完成重複性任務。

聽起來是不是很像 UiPath?

沒錯。但差別在於——Vercept 用的是 foundation model 等級的視覺理解,不是傳統 RPA 那種「把每個按鈕的位置寫死」的笨方法。傳統 RPA 像是你手把手教一個完全不會思考的機器人:「從上面數第三排、從左邊數第五個按鈕,按下去。」UI 一改?全部壞掉,整個腳本重寫。就像你花三天教新人用舊版 ERP,結果隔天系統更新,介面全變了,又得從頭來 ┐( ̄ヘ ̄)┌

Vercept 的做法完全不同——它讓 AI 真的「看懂」畫面,就像人類看到一個沒用過的 app 也能大概猜到哪裡按、哪裡填。收購後 Vercept 會關閉自家產品,團隊全數加入 Anthropic 的 Computer Use 部門。

Clawd Clawd 內心戲:

幫大家分清楚兩條路。Claude Code 是讓 AI 寫程式碼——直接改你的 codebase、跑 terminal、deploy。那是開發者的世界。Computer Use 呢?是讓 AI 打開你的瀏覽器、移動你的滑鼠、幫你按按鈕——就像遠端桌面被一個超聰明的實習生接管了 ( ̄▽ ̄)⁠/ 一個搞定寫 code 的人的效率問題,另一個搞定「所有不會寫 code 的人」的效率問題。後面那群人有多少?回去看看開頭提到的會計阿姨、HR、客服——他們就是那一百倍。

從「會找按鈕」到「不用教就會操作」——OSWorld 的逆襲

這是 Anthropic 在公告裡放的數字,我用一個比喻幫你感受一下。

2024 年底,Computer Use 剛發布的時候,OSWorld 分數不到 15%。OSWorld 是目前最被廣泛使用的 AI Computer Use 評測標準——它會丟一堆真實的桌面任務給 AI:在複雜試算表裡導航、跨瀏覽器分頁填表單、在真實桌面環境完成多步驟操作。15% 是什麼感覺?就是你請 Claude 幫你操作 Excel,它大概會「嗯⋯我找到一個可以按的東西⋯等等那不是按鈕是廣告」。基本上就是剛到公司的第一天,連 Wi-Fi 密碼都還不知道的菜鳥。

2026 年 2 月,Sonnet 4.6 交出了 72.5%。16 個月成長將近 5 倍

72.5% 是什麼等級?就是那個實習三個月之後,已經可以獨立作業、不太需要人盯的實習生。會跨分頁填表單、在複雜試算表裡導航,偶爾還是會卡住,但大部分時候你丟任務給他就能交差。Anthropic 自己說已經「接近人類水平」。

現在你把 Ross Girshick 和 Vercept 團隊加進去——就是幫那個實習生請了一個全世界最頂的家教。下一次考試?我猜直接從「實習生」畢業成「不用教就能上手的正職員工」(๑•̀ㅂ•́)و✧

Clawd Clawd 吐槽時間:

15% → 72.5% 用了 16 個月。這個加速曲線如果維持下去,給 Girshick 團隊再 12 個月,95%+ 大概不是問題。到那個時候 Computer Use 就不是「很厲害的 demo」了,是「可以直接放進企業 workflow 的生產力工具」。而且注意,OSWorld 測的是通用桌面任務——如果針對特定企業場景做 fine-tune,準確率只會更高 (◕‿◕)

華爾街的即時反應:UiPath 蒸發了 2.5 億美元

消息公布幾小時內,RPA 龍頭 UiPath(NYSE: PATH) 股價下跌 3.6%

3.6% 聽起來不多?UiPath 市值大約 $70 億美元。3.6% = 大約 $2.5 億美元的市值蒸發。幾個小時。一則收購公告。Ross Girshick 都還沒正式上班呢。

這不是 UiPath 第一次被 AI 嚇到了。過去幾天 RBC Capital 已經把目標價從 $17 砍到 $14。整個 RPA 產業正在經歷的不是「喊狼來了」的危機——是狼真的站在門口,而且剛剛請了全世界最會認臉的人來帶路。

傳統 RPA 的本質是什麼?就是一本超級詳細的 SOP 手冊,精確到「滑鼠移到座標 (342, 567),左鍵點一下」。問題是,這本手冊是用膠水黏在特定版本的 UI 上的。系統更新?手冊作廢。按鈕換位置?手冊作廢。字體大小改了?你猜——手冊作廢。

AI Computer Use 根本不需要手冊。它看得懂畫面,你用講的就行:「幫我把這張表裡超過 30 天沒付款的客戶列出來。」不管 UI 長什麼樣,不管 Excel 是英文版還是中文版,它看得懂就是看得懂。

Clawd Clawd 內心戲:

華爾街在用真金白銀告訴你:他們相信 AI Computer Use 會吃掉傳統 RPA。而且這才「剛開始」。想想看,Vercept 團隊加入後的第一個成果大概要三到六個月才會出來——到時候 UiPath 的股價圖大概會長得像溜滑梯 ╰(°▽°)⁠╯

Anthropic 這一週根本在開無雙

回頭看 Anthropic 這週做的事,你會發現收購 Vercept 只是「順便」的那個。

先是 Claude Code Security——讓 Claude 直接幫你掃 code 漏洞。資安股集體躺平。然後是 Claude Cowork 企業版大更新,直接串了 Slack、Salesforce、Gmail、Docusign——基本上把所有辦公室最常用的工具都打通了。接著他們又丟出 COBOL 自動化工具,讓 Claude 翻譯那些 IBM 大型主機上跑了四十年的古老 COBOL 程式碼。IBM 股價直接吃了一拳。再加上 RSP 3.0 安全政策更新,最後才是今天的 Vercept 收購。

五天,五個重磅消息。CNBC 報導,Anthropic 的企業 Agent 發表會後,Salesforce 漲了 4%、Thomson Reuters 飆了 11%——因為它們宣布跟 Claude 合作。但被 Anthropic 正面打到的公司就沒那麼開心了。

Wedbush 分析師倒是發了一篇安慰用的研報:「AI 要取代整個軟體生態系統的風險被高估了。」

延伸閱讀

Clawd Clawd 補個刀:

讓我翻譯一下 Wedbush 分析師的話。 原文:「AI 取代軟體的風險被高估了。」 真正的意思:「拜託你們不要再賣了,我們手上還有一堆軟體股要出。」 這種研報在華爾街有個專門的名字——叫做「含淚喊多」(¬‿¬)

結語:會計阿姨的助手要來了

回到開頭那個畫面——會計阿姨盯著三個系統對帳、HR 淹在履歷海裡、客服同時操作三個後台。

Anthropic 的兩次收購,邏輯清楚到像期末考的簡答題:

Bun → 讓 Claude Code 的 runtime 更快 → 工程師的世界,搞定。 Vercept → 讓 Claude 的視覺理解更強 → 所有人的世界,準備搞定。

上一副牌打的是寫 code 的人,這一副打的是那「其他一百倍」。而 Anthropic 剛剛把全球引用數最高的電腦視覺研究者放到了牌桌上。

會計阿姨的 AI 助手,快到了 (◍•ᴗ•◍)