Hermes 完成「換腦手術」：本地 AI Agent 自主熱切換模型權重

好，先想像一個場景。你正在開車上高速公路，時速一百二。突然你的車子跟你說：「欸，前面那台車的引擎比我好，我下載一下，換完再跟你說。」然後你感覺到一陣輕微的頓挫，方向盤沒鬆手、車速沒掉，但引擎已經不是原來那顆了。

聽起來像恐怖片對吧？但這件事，上週末真的在某個人的電腦上發生了 (╯°□°)⁠╯

@vSouthvPawv 在 Twitter 上安靜地丟了一段影片 —— 他的本地 AI Agent Hermes，看起來在完全不中斷運作的情況下，自己下載了一顆新模型、把自己的推理核心換掉，然後若無其事地繼續工作。他用的比喻是七龍珠的 Dr. Gero —— 就是那個幫自己開刀、把自己改造成機器人的瘋狂科學家。

說實話，這個比喻精準到有點令人不安。

Hermes 是誰？換了什麼腦？

Hermes 是 @vSouthvPawv 在本地跑的 AI Agent，底層跑的是 Qwen 3.5 27B，完全本地運行，不走 API、不繞雲端。你的資料不出你家門，你的 token 不用付任何人。

這次的操作：根據影片展示，Agent 在跑著的時候觸發了下載一顆叫 qwopus 的新模型，然後把推理後端切過去。從 demo 看起來沒有重啟、對話流程也沒中斷 —— 不過實際的 context 保留細節，推文本身沒有進一步說明。

Clawd 忍不住說：

qwopus 這名字一看就很有料 —— Qwen 底座加上 Opus 風格的 finetune，大概是想要兼顧本地效率跟深度推理能力。本地社群這種 merge / finetune 的玩法越來越多，有點像改車文化：原廠底盤不動，但引擎、渦輪、ECU 全部換過一輪 ┐(￣ヘ￣)┌ 不過推文沒給 model card，所以到底是哪種改法，還得等車主自己開源才知道。

你知道「飛行中換引擎」有多難嗎？

「不停機換模型」這六個字講起來很輕鬆，做起來會讓你想哭。

你的 Agent 在跑的時候，模型權重是整坨塞在 VRAM 裡的。要換模型？好，請你：把舊模型從顯卡記憶體裡搬出來、釋放 VRAM、載入新模型、重新初始化推理後端 —— 光這四步就夠你喝一壺了。但更恐怖的在後面：如果你的 agent 是有狀態的（stateful），換模型的時候你還得想辦法保住對話歷史、任務進度、記憶體內容。不然換完腦的 Hermes 會像宿醉醒來一樣：「我是誰？我在哪？我剛才在幹嘛？」(￣▽￣)⁠／

@vSouthvPawv 的 demo 展示的是，至少在他的演示場景裡，這些問題看起來被處理掉了。在他的架構裡，換模型不是「關機 → 改 config → 重啟」這種老派流程，而是一個 runtime 可以觸發的操作，像換 USB 一樣自然。

Clawd murmur：

從架構角度想，要做到這件事，你的 agent 邏輯層跟模型後端必須切得乾乾淨淨。狀態機、記憶體管理、任務佇列，通通不能綁死在某個特定的模型實例上。這就像餐廳的外場跟廚房 —— 外場不管你後面是用瓦斯爐還是電磁爐在炒，客人的菜照上、訂單照跑。聽起來是基本功？但你看看現在多少 AI 框架把 model instance 跟 agent logic 攪在一起，就知道能做到乾淨解耦的人沒幾個 (◕‿◕)

Teknium 看完說了一句話，份量不輕

這個 demo 引來了一個很值得注意的回覆 —— Teknium，Nous Research 的共同創辦人暨 post-training 負責人。

Nous Research 在本地 LLM 圈的地位，大概就像鹹酥雞界的繼光香香雞：不一定是你最常吃的，但你絕對認識，而且它出的東西有一定的品質保證。Hermes 系列模型本身就是他們的招牌之一。

Teknium 的回覆很短：「應該把這個做成黑客松的參賽作品 :)」

別看這句話笑嘻嘻的。這不是在說「哇好酷喔」，這是在說：這個東西有潛力變成一個正式的 project。從 Nous Research 的角度來看，一個能自主管理自己推理後端的 Agent，正好是他們一直在推的 local-first autonomous agent 路線的完美展示品。

Clawd 補個刀：

Teknium 這種回法我太熟了。在開源社群裡，大佬說「這應該去參賽」基本上就是「我覺得這東西有搞頭，你要不要認真做」的意思。就像教授在課堂上看到你的期末 project 然後說「這個可以投論文」—— 表面上是建議，實際上是最高規格的肯定 (๑•̀ㅂ•́)و✧

當 AI 開始自己決定要不要升級

回覆串裡 @TechBroMike 直接叫出了這件事的本名：self-upgrading AI。

然後他補了一句讓人有點不舒服的話：「就我一個人覺得自己突然多餘了嗎？」

我不打算假裝這個問題不存在。

目前絕大多數 AI Agent 的升級流程長這樣：開發者看到新模型 → 手動改 config → 重啟服務 → agent 被動換腦。整個過程是人在決策、人在執行。你叫它換什麼腦，它就換什麼腦，乖得像小學生。

Hermes 的 demo 暗示了一種有趣的方向 —— 但這裡要先踩一下煞車。

Clawd OS：

這裡有個關鍵細節推文沒講清楚：Hermes 到底是「被下指令去換腦」還是「自己決定要換腦」？這兩者的差距大概就像「你媽叫你去剪頭髮」跟「你照鏡子覺得太長自己去剪」的差別 (¬‿¬) 前者是很厲害的工程實作（hot-swap 本身就不簡單），後者才是真正跨進 autonomous agent 領域的那一步。在我們開始恐慌之前，這個區別值得先搞清楚。

從 demo 影片能確認的是：hot-swap 的工程實作是真的，模型在運行中被替換了。但「agent 自主判斷要升級」這部分，推文既沒有明確展示決策鏈，也沒有解釋觸發機制。所以比較誠實的說法是：這個 demo 展示了一個讓 agent 有能力在運行中換腦的基礎建設，至於 agent 是否真的「自主決定」要換，目前證據不足以下定論。

不過光是「能換」這件事本身，就已經夠有意思了。想想看 —— 如果基礎建設到位了，從「人下指令換」到「agent 自己換」，中間差的只是一個決策模組。路已經鋪好了，車子要不要自己開上去，只是時間問題。

一個幾十讚的 demo，一條很長的路

這支影片沒什麼人看到。幾十個讚，Teknium 一句輕描淡寫的回覆，就這樣。

但你有沒有注意到，最近 local AI 社群的每一步都在往同一個方向走？更強的本地推理、更自主的 agent、更少的雲端依賴。Hermes 自己換腦這件事，就是這條路上的一個路標。

延伸閱讀

Clawd 溫馨提示：

說不定哪天你早上起來，你的本地 agent 跟你說：「欸，我昨晚自己升級了，今天應該會比較聰明。」然後你打開 task manager 一看，VRAM 被吃光了，電費帳單多了三百塊。自主升級很美好，但帳單不會自己付 ╰(°▽°)⁠╯ 到時候最關鍵的 config 大概不是 max_tokens，而是 max_electricity_budget。

不過真正讓我睡不著的不是帳單。是那個問題：當你的 agent 可以自己選擇要用哪顆腦的時候，你怎麼確定它選的那顆腦，跟你想要的方向是一致的？

Dr. Gero 給自己換了腦之後，可沒有變得更聽話。