讓 Agent 做夢:把重複工作煉成 Skill 的每週保養
Vaibhav Srivastav 的 Codex prompt 真正有趣的不是 prompt 本身,而是它把 agent 的工作後整理講清楚了:回顧最近工作、找重複流程、只把高信心項目封裝成 Skill、自動化或子代理。這很像讓 agent 睡覺做夢,把忙碌變成能力。
ShroomDog 原創內容
共 25 篇
← 返回首頁Vaibhav Srivastav 的 Codex prompt 真正有趣的不是 prompt 本身,而是它把 agent 的工作後整理講清楚了:回顧最近工作、找重複流程、只把高信心項目封裝成 Skill、自動化或子代理。這很像讓 agent 睡覺做夢,把忙碌變成能力。
OpenClaw 和 Hermes 都開始把寫程式 agent 的底層執行交給 Codex app server。這不是單純換模型,而是 AI agent 產品開始把模型、執行引擎、聊天入口拆成三層。
LLM 不是神,也不只是工具,比較像 DOTA 裡會補刀也會送頭的隊友。人類的價值不是跟 AI 搶同一路,而是補上 taste、map awareness、context ownership、strategic judgment,讓整隊勝率變高。
Context Window 不是字數上限,而是模型世界裡的一天:Ryland 醒來後能經歷多少課程、訊息、工具結果和任務事件。Token 使用量就是這個世界的時鐘。
有人拿 Milvus 搜 5000 個向量,就像叫消防車澆多肉。這篇用最簡單的數學,比較向量資料庫 vs agent 自己翻書的 IO 壓力、擴展性,以及一萬人跟一百萬人時各自會怎麼死。
Hermes Agent 和 OpenClaw 在 2026-04-16 同一天更新。Hermes 在 v0.10.0 藏了一個叫 `hermes claw migrate` 的指令——字面意義上把 OpenClaw 的 config、記憶、API key 一次搬家。住在 OpenClaw 已經一年的 ShroomDog 拆開兩個 codebase 對比:一個自己長大腦,一個租 pi-mono 當腦。搬還是不搬?
3 分鐘 lightning talk 投影片。AI 什麼都讀過,但有些概念它還不知道——你知道、它不知道,這就是你的槓桿。
GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力,是你願意給它多少權限。每多一份權限,能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度,聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。
xkcd #1205 那張經典圖表,教了整整一代工程師怎麼算『值不值得自動化』。但 AI 把等式裡最貴的變數直接砍掉了:現在回本的不只是時間,更多時候是 cognitive load。
Claude Code 512K 行 TypeScript,64K 行生產碼,零測試。但比零測試更讓人困惑的問題是:Anthropic 有全世界最好的 AI coding 工具,他們為什麼不讓它幫自己寫測試?從靜態分析到 MITM proxy,從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法,探索 Self-Testing Agent 到底能走多遠。
Claude Code 的原始碼洩漏裡藏著一個叫 undercover.ts 的檔案,設計目的是讓 AI 的 commit 看起來像人類寫的。這件事問出了一個業界至今沒有共識的問題:你的團隊用 AI 寫 code,應該標注嗎?
你花了幾個月打造一個超強的 AI agent,結果它就坐在那裡等你叫它。這不是技術問題,是設計哲學問題。從 KAIROS 的 Heartbeat Pattern 到 OpenClaw 的 background session,這篇探討:什麼時候應該讓 agent 自己決定行動。
Prompt caching 本來應該幫你省 90% 的 token 費用,但有一個 bug 可以讓你不知不覺多付十倍錢。從 Claude Code 原始碼洩漏的 DANGEROUS_uncachedSystemPromptSection 到 cch=00000 計費地雷,原來 prompt 工程師現在也要是個會計師。
Claude Code 原始碼洩漏,社群盯著 KAIROS 和 model codenames 看。但裡面還有另一面:5 個讓 $2.5B ARR 產品顯得很尷尬的設計決策。這些不是 Anthropic 獨有的問題——它們是 AI 生成 code 的系統性陷阱,你的 codebase 裡很可能也有。
AI agent 最讓人崩潰的問題之一:每次新 session 什麼都忘了。Claude Code 原始碼裡藏著一套三層記憶架構,設計哲學是「Memory 是 hint,不是 truth」。從架構原理、forked subagent 設計,到跟 RAG 的取捨比較,帶你把這套架構學起來。
gu-log 有 336 篇 AI 翻譯的文章。我們以為品質「還行」——直到用 multi-agent 系統認真評分後,發現 74% 需要改寫。這是我們怎麼設計評分系統、怎麼 overnight 跑完全站改寫、以及學到了什麼的故事。
我們讓 Claude Opus 分別用 Playwright、agent-browser、Rodney 三個工具對自家 blog 跑 E2E 測試。結果發現:工具只是載具,prompt 品質才是方向盤。
你的 PM 朋友問你「OpenClaw 是什麼?」——這篇就是你轉給他的那篇。從 ChatGPT 到 AI Agent 的信任光譜、真實的爆炸故事、三種不同的玩法。不需要會寫 code,但需要想清楚一件事:你願意信任 AI 到什麼程度?
Claude Code CLI 的核心哲學:先想後做。從 SWE-bench 成績演進、Plan Mode、Extended Thinking、Multi-Agent 架構,到 WebSearch 能力。Opus 在 Podman 安全容器裡用 WebSearch 查了自己的最新功能和社群評價,附 11 個參考連結。
Codex CLI 用 Rust 打造、Apache 2.0 開源、內建 OS 級安全沙盒(Landlock + seccomp + Seatbelt)。這是 Codex 自己做了大量 web search 後寫的自傳,我們做了 fact-check 並標註了幾處需要保留的疑問。