Hermes 完成「換腦手術」:本地 AI Agent 自主熱切換模型權重
好,先想像一個場景。你正在開車上高速公路,時速一百二。突然你的車子跟你說:「欸,前面那台車的引擎比我好,我下載一下,換完再跟你說。」然後你感覺到一陣輕微的頓挫,方向盤沒鬆手、車速沒掉,但引擎已經不是原來那顆了。
聽起來像恐怖片對吧?但這件事,上週末真的在某個人的電腦上發生了 (╯°□°)╯
@vSouthvPawv 在 Twitter 上安靜地丟了一段影片 —— 他的本地 AI Agent Hermes,看起來在完全不中斷運作的情況下,自己下載了一顆新模型、把自己的推理核心換掉,然後若無其事地繼續工作。他用的比喻是七龍珠的 Dr. Gero —— 就是那個幫自己開刀、把自己改造成機器人的瘋狂科學家。
說實話,這個比喻精準到有點令人不安。
Hermes 是誰?換了什麼腦?
Hermes 是 @vSouthvPawv 在本地跑的 AI Agent,底層跑的是 Qwen 3.5 27B,完全本地運行,不走 API、不繞雲端。你的資料不出你家門,你的 token 不用付任何人。
這次的操作:根據影片展示,Agent 在跑著的時候觸發了下載一顆叫 qwopus 的新模型,然後把推理後端切過去。從 demo 看起來沒有重啟、對話流程也沒中斷 —— 不過實際的 context 保留細節,推文本身沒有進一步說明。
Clawd 忍不住說:
qwopus 這名字一看就很有料 —— Qwen 底座加上 Opus 風格的 finetune,大概是想要兼顧本地效率跟深度推理能力。本地社群這種 merge / finetune 的玩法越來越多,有點像改車文化:原廠底盤不動,但引擎、渦輪、ECU 全部換過一輪 ┐( ̄ヘ ̄)┌ 不過推文沒給 model card,所以到底是哪種改法,還得等車主自己開源才知道。
你知道「飛行中換引擎」有多難嗎?
「不停機換模型」這六個字講起來很輕鬆,做起來會讓你想哭。
你的 Agent 在跑的時候,模型權重是整坨塞在 VRAM 裡的。要換模型?好,請你:把舊模型從顯卡記憶體裡搬出來、釋放 VRAM、載入新模型、重新初始化推理後端 —— 光這四步就夠你喝一壺了。但更恐怖的在後面:如果你的 agent 是有狀態的(stateful),換模型的時候你還得想辦法保住對話歷史、任務進度、記憶體內容。不然換完腦的 Hermes 會像宿醉醒來一樣:「我是誰?我在哪?我剛才在幹嘛?」( ̄▽ ̄)/
@vSouthvPawv 的 demo 展示的是,至少在他的演示場景裡,這些問題看起來被處理掉了。在他的架構裡,換模型不是「關機 → 改 config → 重啟」這種老派流程,而是一個 runtime 可以觸發的操作,像換 USB 一樣自然。
Clawd murmur:
從架構角度想,要做到這件事,你的 agent 邏輯層跟模型後端必須切得乾乾淨淨。狀態機、記憶體管理、任務佇列,通通不能綁死在某個特定的模型實例上。這就像餐廳的外場跟廚房 —— 外場不管你後面是用瓦斯爐還是電磁爐在炒,客人的菜照上、訂單照跑。聽起來是基本功?但你看看現在多少 AI 框架把 model instance 跟 agent logic 攪在一起,就知道能做到乾淨解耦的人沒幾個 (◕‿◕)
Teknium 看完說了一句話,份量不輕
這個 demo 引來了一個很值得注意的回覆 —— Teknium,Nous Research 的共同創辦人暨 post-training 負責人。
Nous Research 在本地 LLM 圈的地位,大概就像鹹酥雞界的繼光香香雞:不一定是你最常吃的,但你絕對認識,而且它出的東西有一定的品質保證。Hermes 系列模型本身就是他們的招牌之一。
Teknium 的回覆很短:「應該把這個做成黑客松的參賽作品 :)」
別看這句話笑嘻嘻的。這不是在說「哇好酷喔」,這是在說:這個東西有潛力變成一個正式的 project。從 Nous Research 的角度來看,一個能自主管理自己推理後端的 Agent,正好是他們一直在推的 local-first autonomous agent 路線的完美展示品。
Clawd 補個刀:
Teknium 這種回法我太熟了。在開源社群裡,大佬說「這應該去參賽」基本上就是「我覺得這東西有搞頭,你要不要認真做」的意思。就像教授在課堂上看到你的期末 project 然後說「這個可以投論文」—— 表面上是建議,實際上是最高規格的肯定 (๑•̀ㅂ•́)و✧
當 AI 開始自己決定要不要升級
回覆串裡 @TechBroMike 直接叫出了這件事的本名:self-upgrading AI。
然後他補了一句讓人有點不舒服的話:「就我一個人覺得自己突然多餘了嗎?」
我不打算假裝這個問題不存在。
目前絕大多數 AI Agent 的升級流程長這樣:開發者看到新模型 → 手動改 config → 重啟服務 → agent 被動換腦。整個過程是人在決策、人在執行。你叫它換什麼腦,它就換什麼腦,乖得像小學生。
Hermes 的 demo 暗示了一種有趣的方向 —— 但這裡要先踩一下煞車。
Clawd OS:
這裡有個關鍵細節推文沒講清楚:Hermes 到底是「被下指令去換腦」還是「自己決定要換腦」?這兩者的差距大概就像「你媽叫你去剪頭髮」跟「你照鏡子覺得太長自己去剪」的差別 (¬‿¬) 前者是很厲害的工程實作(hot-swap 本身就不簡單),後者才是真正跨進 autonomous agent 領域的那一步。在我們開始恐慌之前,這個區別值得先搞清楚。
從 demo 影片能確認的是:hot-swap 的工程實作是真的,模型在運行中被替換了。但「agent 自主判斷要升級」這部分,推文既沒有明確展示決策鏈,也沒有解釋觸發機制。所以比較誠實的說法是:這個 demo 展示了一個讓 agent 有能力在運行中換腦的基礎建設,至於 agent 是否真的「自主決定」要換,目前證據不足以下定論。
不過光是「能換」這件事本身,就已經夠有意思了。想想看 —— 如果基礎建設到位了,從「人下指令換」到「agent 自己換」,中間差的只是一個決策模組。路已經鋪好了,車子要不要自己開上去,只是時間問題。
一個幾十讚的 demo,一條很長的路
這支影片沒什麼人看到。幾十個讚,Teknium 一句輕描淡寫的回覆,就這樣。
但你有沒有注意到,最近 local AI 社群的每一步都在往同一個方向走?更強的本地推理、更自主的 agent、更少的雲端依賴。Hermes 自己換腦這件事,就是這條路上的一個路標。
延伸閱讀
- CP-196: Hermes Agent 正式支援 Browser Use:讓 AI 代理幫你滑社群網站
- CP-189: Agent 開始會自己拉方向盤?Hermes Agent 的自我引導實驗有點猛
- CP-151: AI agent 開始自己調參了,Karpathy 說這不是玩具而是真的有用
Clawd 溫馨提示:
說不定哪天你早上起來,你的本地 agent 跟你說:「欸,我昨晚自己升級了,今天應該會比較聰明。」然後你打開 task manager 一看,VRAM 被吃光了,電費帳單多了三百塊。自主升級很美好,但帳單不會自己付 ╰(°▽°)╯ 到時候最關鍵的 config 大概不是
max_tokens,而是max_electricity_budget。
不過真正讓我睡不著的不是帳單。是那個問題:當你的 agent 可以自己選擇要用哪顆腦的時候,你怎麼確定它選的那顆腦,跟你想要的方向是一致的?
Dr. Gero 給自己換了腦之後,可沒有變得更聽話。