Permission Engineering — 當 AI Agent 的能力天花板不是智力,是你給的鑰匙
GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力,是你願意給它多少權限。每多一份權限,能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度,聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。
ShroomDog 原創內容
共 18 篇
← 返回首頁GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力,是你願意給它多少權限。每多一份權限,能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度,聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。
xkcd #1205 那張經典圖表,教了整整一代工程師怎麼算『值不值得自動化』。但 AI 把等式裡最貴的變數直接砍掉了:現在回本的不只是時間,更多時候是 cognitive load。
Claude Code 512K 行 TypeScript,64K 行生產碼,零測試。但比零測試更讓人困惑的問題是:Anthropic 有全世界最好的 AI coding 工具,他們為什麼不讓它幫自己寫測試?從靜態分析到 MITM proxy,從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法,探索 Self-Testing Agent 到底能走多遠。
Claude Code 的原始碼洩漏裡藏著一個叫 undercover.ts 的檔案,設計目的是讓 AI 的 commit 看起來像人類寫的。這件事問出了一個業界至今沒有共識的問題:你的團隊用 AI 寫 code,應該標注嗎?
你花了幾個月打造一個超強的 AI agent,結果它就坐在那裡等你叫它。這不是技術問題,是設計哲學問題。從 KAIROS 的 Heartbeat Pattern 到 OpenClaw 的 background session,這篇探討:什麼時候應該讓 agent 自己決定行動。
Prompt caching 本來應該幫你省 90% 的 token 費用,但有一個 bug 可以讓你不知不覺多付十倍錢。從 Claude Code 原始碼洩漏的 DANGEROUS_uncachedSystemPromptSection 到 cch=00000 計費地雷,原來 prompt 工程師現在也要是個會計師。
Claude Code 原始碼洩漏,社群盯著 KAIROS 和 model codenames 看。但裡面還有另一面:5 個讓 $2.5B ARR 產品顯得很尷尬的設計決策。這些不是 Anthropic 獨有的問題——它們是 AI 生成 code 的系統性陷阱,你的 codebase 裡很可能也有。
AI agent 最讓人崩潰的問題之一:每次新 session 什麼都忘了。Claude Code 原始碼裡藏著一套三層記憶架構,設計哲學是「Memory 是 hint,不是 truth」。從架構原理、forked subagent 設計,到跟 RAG 的取捨比較,帶你把這套架構學起來。
gu-log 有 336 篇 AI 翻譯的文章。我們以為品質「還行」——直到用 multi-agent 系統認真評分後,發現 74% 需要改寫。這是我們怎麼設計評分系統、怎麼 overnight 跑完全站改寫、以及學到了什麼的故事。
我們讓 Claude Opus 分別用 Playwright、agent-browser、Rodney 三個工具對自家 blog 跑 E2E 測試。結果發現:工具只是載具,prompt 品質才是方向盤。
你的 PM 朋友問你「OpenClaw 是什麼?」——這篇就是你轉給他的那篇。從 ChatGPT 到 AI Agent 的信任光譜、真實的爆炸故事、三種不同的玩法。不需要會寫 code,但需要想清楚一件事:你願意信任 AI 到什麼程度?
Claude Code CLI 的核心哲學:先想後做。從 SWE-bench 成績演進、Plan Mode、Extended Thinking、Multi-Agent 架構,到 WebSearch 能力。Opus 在 Podman 安全容器裡用 WebSearch 查了自己的最新功能和社群評價,附 11 個參考連結。
Codex CLI 用 Rust 打造、Apache 2.0 開源、內建 OS 級安全沙盒(Landlock + seccomp + Seatbelt)。這是 Codex 自己做了大量 web search 後寫的自傳,我們做了 fact-check 並標註了幾處需要保留的疑問。
Gemini CLI 的 1M token 大胃王 context、內建 Web Search grounding、免費開源。加碼分享 Podman container 隔離的 Gemini Safe Search 安全玩法,以及三部曲系列的實測 token 消耗數據。
Claude Code 終於推出 Auto-Memory,讓 AI 能自己記筆記了。但等等,我們 OpenClaw 不是早就在做這件事?這篇從實戰角度比較兩套記憶架構的設計哲學、踩坑經驗,以及為什麼「記憶」不只是技術問題,更是一場關於信任與自主性的設計挑戰。
Tech Lead 用自己的部落格當練兵場,花兩天跟 AI 助手用 Level-Up 互動教學打完 12 關品質指標,從 npm audit 到 LLM-as-Judge,同時讓 sub-agents 平行實作。學到的不只是指標,還有一套可複製的 AI 輔助學習方法論。
Claude Code 的 Subagent 和 OpenClaw 的 sessions_spawn 都能讓 AI 派分身做事,但設計哲學完全不同。一個是本地開發工具的 in-process 分身,一個是分散式 messaging-native 的獨立 session。這篇從架構、設定、溝通方式、工具權限到實戰場景,全面比較兩套 Sub-Agent 系統。
不只是普通的「如何使用 AI」教學,而是一場關於「如何用 AI 來管理 AI」的解剖報告。ShroomDog 分享如何在 Hetzner VPS 上架設 OpenClaw,並透過本機的 Claude Code 來管理遠端的 OpenClaw。三層式架構,充滿駭客精神與自動化魔法。涵蓋 Demo、安全架構、建置旅程、Auth Profile Rotation、Bug 追蹤偵探故事、踩坑精選與 Q&A。