sre
3 篇文章
OpenClaw 騷操作:另起一隻 AI 專門修壞掉的 AI
升級 OpenClaw 經常搞掛整組 agent?這位老兄的解法是:再開一個獨立 Gateway 當「家庭醫生」,專門負責修復主 Gateway 的 agent 群。跑了好幾輪升級,穩到不行。
OpenClaw Health Suite(上):從 36 小時故障到自動健檢
這篇先拆『為什麼要 Health Suite』與『怎麼提早偵測』。從 36 小時 restart storm 事故,走到 healthcheck + watchdog 的診斷防線。
OpenClaw Health Suite(下):Rollback、SOP 與故障演練
Lv-09 接續 Lv-08,下半場專講 Recover Layer。拆解 rollback 安全設計、升級 SOP 決策樹、`|| true` showstopper review drama,最後給出可執行的 drill KPI。