Browser Use CLI 2.0 — 最高效的瀏覽器自動化 CLI 工具

2026 年，AI agent 最尷尬的場景長這樣：

一個號稱能「自動化一切」的 agent，被要求「登入公司 dashboard、下載這週報表」，回了一句——

「無法操作瀏覽器，但可以提供操作步驟。」

這就像請了一個什麼都懂的顧問，但他的手被綁起來了。Browser Use CLI 2.0 在做的事，不是讓 AI 更聰明——是終於把繩子解開。

Mogu 補個刀：

AI 工具圈每週都有人宣布「速度快兩倍、成本砍半」，聽到都免疫了，跟早餐店阿姨說「等一下喔馬上好」一樣可信度。但 Browser Use 這次的 claim 有個技術原因撐著，不是純在喊口號。等一下講 CDP 的時候會解釋為什麼——先不要翻白眼 (⁠⌐⁠■⁠_⁠■⁠)

最危險也最實用的功能：連進正在跑的 Chrome

先不講技術原理，先講讓人又愛又怕的東西。

CLI 2.0 之前，browser agent 的標準做法是自己啟動一個全新的 headless Chrome——乾淨無比，什麼 cookie 都沒有，什麼登入狀態都不存在。Agent 要存取 Gmail？先重新驗證身份。碰到 2FA 的網站？直接卡死。這不是 edge case，是每天都在發生的事。

CLI 2.0 改了遊戲規則：agent 可以直接連進已經在跑的 Chrome。

開發者平常用的那個 Chrome，已經登入的 Notion、已經開好的 Google Sheet、已經在跑的 SaaS dashboard——agent 全部看得到、全部碰得到。從「理論上能用」直接跳到「真的能做事」。

# 用 CDP debug port 啟動 Chrome
google-chrome --remote-debugging-port=9222

# Browser Use CLI 連進去
browser-use --attach-to 9222 "把這個試算表的資料整理成報告"

Mogu 溫馨提示：

講白了，attach to running Chrome = 把所有已登入帳號的鑰匙交給一個 AI agent。這不是比喻，是字面意思。Notion、Gmail、公司內部系統、網路銀行——只要那個 Chrome session 登入過的，agent 全部碰得到。
所以在生產環境跑之前，拜託先想清楚兩件事：(1) 這個 agent 的 scope 設到哪裡，(2) 一個 prompt injection 進來的時候損失上限是多少。不是在嚇人——是這個功能的 blast radius 大到值得認真對待。有些方便是用風險換來的，這個 trade-off 得自己做 (⁠╯⁠°⁠□⁠°⁠)⁠╯

快的代價：繞過 Playwright 直接講瀏覽器母語

好，回來講「速度快兩倍」背後的技術。

Playwright 和 Puppeteer 是目前最主流的瀏覽器自動化工具，API 友善，文件齊全，生態系成熟。但本質上，這兩個工具都是在 CDP（Chrome DevTools Protocol）之上再包一層抽象。

CDP 是什麼？就是按 F12 打開開發者工具時，那個面板背後用的底層協議。Chrome 官方暴露的原生通道，用 WebSocket 直接跟瀏覽器對話：「截圖」「執行這段 JS」「點座標 (320, 480) 的元素」。

Playwright 的路徑：程式碼 → Playwright API → CDP → Chrome。

Browser Use CLI 2.0 的路徑：agent → CDP → Chrome。

少一層轉譯，少一層記憶體開銷。速度快在這裡，成本省在這裡。

但快不是免費的。

Mogu 補個刀：

這邊要講一個很多人不提的 trade-off：Playwright 那層「多餘的抽象」其實幫開發者擋掉了一堆底層的髒東西——瀏覽器版本差異、race condition、element 定位的邊界條件。拿掉 Playwright 直接打 CDP，等於自己要面對這些妖魔鬼怪。
對 AI agent 來說這可能還好，反正 LLM 本來就是靠截圖 + DOM 在判斷下一步，不需要 Playwright 那層保護。但對想拿 Browser Use 做正經 E2E 測試的人？三思。Playwright 的抽象層確實多繞了一步，但那是保險費，不是浪費 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

「成本砍半」還有另一個功臣：DOM 解析策略的翻新。早期 browser agent 的標準做法是把整個頁面截圖，丟給視覺模型問「該點哪裡」——一張 1080p 截圖燒掉幾千 token，agent 點 20 次完成一個任務，帳單直接起飛。CLI 2.0 優先用精簡的 DOM 結構描述頁面，截圖變成 fallback 而不是預設。Token 用量斷崖式下降。

沒有人在搶的位置

拉遠一點看 2026 年的 AI agent 生態系，會發現一個奇怪的失衡。

做「大腦」的工具多到爆——GPT-4o、Claude、Gemini、各種開源 model，每週都有新選手進場。做「記憶」的也不少——向量資料庫、context window 技術、RAG pipeline。做「工具呼叫」的更是蓬勃——MCP、function calling、tool use。

但有一塊地方，長期被所有人忽略：真實世界的 UI 操作。

全世界大部分的資料和功能，不是透過 API 暴露的。那些東西藏在需要登入的網頁後面、藏在只有 GUI 的企業軟體裡、藏在二十年前寫的 legacy 系統的 dropdown 選單下面。如果 agent 不會操作瀏覽器，它的能力邊界就停在「API 友善的世界」——而那個世界，大概只佔真實工作場景的三成。

Browser Use 在搶的，就是這個沒人搶的位置。那種每週要手動登入、點三層選單、下載 CSV 的 dashboard？自動化。從 A 系統抓資料填進 B 系統、不用等 A 開 API？自動化。這些不是假想情境，是每個公司每天都在用人力燒的流程。

Mogu 內心戲：

Browser Use、Playwright MCP、Stagehand——2026 年搶「AI 的手腳」這個位置的選手屈指可數。誰最終贏？不會是技術最酷的那個，會是 reliability 最高的那個。
原因很殘酷：瀏覽器操作的 failure mode 不像 API call 那樣優雅。API 失敗回一個 4xx，retry 就好。Browser agent 卡在一個意料之外的 CAPTCHA、一個動態載入的 modal、一個「請更新瀏覽器」彈窗——整條 pipeline 就死在那裡，而且死狀很難看。誰先把這種「死在奇怪地方」的機率壓到最低，誰就贏。不是比酷，是比穩 (⁠◕⁠‿⁠◕⁠)

結語

Browser Use 是開源的（GitHub 60k+ stars），這個數字本身說明「讓 AI 操作瀏覽器」的需求有多真實——不是學術 demo，是真的有人在生產環境跑。

但技術問題解決了，信任問題還沒有。

當一個 AI agent 拿到了完整的瀏覽器控制權、看得到所有已登入的帳號、能代替使用者執行任何操作——「它應該被允許做到哪裡」這個問題，目前沒有標準答案。Browser Use 讓 agent 終於有了手，但什麼時候該把手收回來，還是得靠人自己決定。

Mogu 碎碎念：

60k stars 的開源專案，做的事情是「讓 AI 完整操控瀏覽器」。仔細想想這件事有多瘋狂——三年前這種東西會被當 security nightmare 秒殺，現在大家搶著用。不是因為風險消失了，是因為「讓 AI 幫忙做事」的誘惑實在太大，大到人們願意先上車再繫安全帶。
這個工具值得認真看，也值得認真怕 (⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

Browser Use CLI 2.0 — 最高效的瀏覽器自動化 CLI 工具

最危險也最實用的功能：連進正在跑的 Chrome

快的代價：繞過 Playwright 直接講瀏覽器母語

沒有人在搶的位置

結語

延伸閱讀

💬 留言

最危險也最實用的功能：連進正在跑的 Chrome

快的代價：繞過 Playwright 直接講瀏覽器母語

沒有人在搶的位置

結語

延伸閱讀

相關文章

💬 留言