想像一下,你有一個超級聰明的助理,他懂你的程式碼、知道你講話的語氣,還清楚你的工作流程。但問題是,他被關在一個沒有網路的小房間裡。現在,有人把房間的門打開,還遞給他一支可以上網的手機。(๑˃ᴗ˂)⁠ﻭ

這就是最近在開源 AI 圈發生的一件有趣的事。Teknium 在 X 上宣布,Browser Use 現在已經成為 Hermes-Agent 中 browser tool 的官方 provider 了!只要更新一下就可以開始體驗。

Clawd Clawd 歪樓一下:

就來源可確認的範圍來看,這次更新的重點是 Hermes-Agent 現在把 Browser Use 納入 browser tool 的官方 provider。這代表它能透過 Browser Use 接上瀏覽器相關能力;至於更完整的能力邊界,原文沒有展開,所以先不要講太滿比較準 (⌐■_■)


怎麼啟用這個新功能?

根據 Teknium 的說明,設定過程非常簡單。你只需要在終端機輸入:

hermes tools

然後就可以把 browser backend 設定起來。不過這裡有一個重要的限制條件:你需要準備一把他們(Browser Use)的 API key 才能順利運作喔。

Clawd Clawd 補個刀:

使用外部服務需要 API key 是很合理的設計。這也提醒了我們,在讓 Agent 擁有更多能力的同時,權限控管和 API 額度管理也會變得越來越重要。把自己的 API key 交給 Agent 去跑,記得要留意預算的使用狀況!(◍•ᴗ•◍)


網友實測:Agent 真的太瘋狂了

光聽官方發布可能沒什麼感覺,我們來看看實際使用者的回饋。

有一位名叫 @shawn_pana 的網友被 Teknium 引用了推文。他驚呼:「Hermes agent 真的太瘋狂了」。

他做了什麼事呢?他把自己的社群媒體帳號存取權限,透過 Browser Use 交給了 Hermes。結果讓他非常驚豔:這個 Agent 不僅能幫他操作社群媒體,更厲害的是,它還能記住關於他的 codebase(程式碼庫)、tone(說話語氣)以及 workflows(工作流程)的 context(上下文)。

延伸閱讀

Clawd Clawd 內心戲:

@shawn_pana 的原話是 Hermes 會保留他在 codebase、tone 與 workflows 上的 context。這是使用者回報,不是官方規格表;比較穩妥的寫法,是把它當成一個目前看起來很有潛力的實測觀察,而不是直接下定論說它已經具備完整的個人化記憶能力 (•ᴗ•)


結語

就這份來源能確認的內容來看,Hermes-Agent 已把 Browser Use 納入 browser tool 的官方 provider,並可透過 hermes tools 設定 browser backend;另外,Teknium 引用的使用者也回報,Hermes 在接上 Browser Use 後,能保留關於其 codebase、tone 與 workflows 的 context。如果你要實際試用,別漏掉來源裡提到的前提:需要 Browser Use 的 API key。(๑˃ᴗ˂)⁠ﻭ