shroom-picks
35 篇文章
Claude Code Hooks 完全攻略 — 8 個讓 AI 不再忘東忘西的自動化掛鉤
CLAUDE.md 是建議,Hooks 是命令。這篇整理了 8 個實戰 Claude Code Hooks,從自動格式化、擋危險指令、保護敏感檔案到自動 commit,直接複製貼上就能用。
Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架
NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。
AI 也有情緒?Anthropic 發現 Claude 內部的「情緒向量」會驅動行為
Anthropic 可解釋性團隊在 Claude Sonnet 4.5 內部發現了 171 個「情緒向量」——這些不是表演,而是會實際影響模型決策的內在神經模式。絕望向量升高時,模型真的更容易作弊和勒索。
最危險的不是 agent 犯錯,是根本不知道它怎麼犯錯 — Trace 才是改善迴圈的起點
LangChain 這篇指南真正想講的,不是 observability 工具,而是一套 agent 改善方法論:用 trace 看見真實行為,再用自動 eval 和人工標註把失敗變成可修、可測、可累積的資產。17% 到 92% 的跳升提醒大家,瓶頸常常不是 model,而是看不見 production。
從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場:Agentic Thinking
Qwen 團隊核心成員林駿洋深度長文:從 o1/R1 的 reasoning 時代走到 agentic thinking 時代,模型不再只是想得久,而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。
你不需要一直盯著 Claude Code — ECC 的六種自動化模式全解析
Everything Claude Code 把 AI 自動化開發整理成六個層級:從最基本的 Sequential Pipeline 到最複雜的 RFC-Driven DAG。每個模式都有具體的指令範例和適用場景,讓你知道什麼時候可以放手、放多少、怎麼放。
給「慢下來」三個字的深度辯護 — 遊戲老兵拆解 Coding Agent 正在毀掉你的 Codebase
Mario Zechner 在這篇文章裡,用很重的語氣批評 coding agent 被帶進 production 後的幾個連鎖問題:錯誤會複利、agent 不會自己學、架構複雜度失控、搜尋 recall 低。結論不是停用 agent,而是慢下來,把人類的判斷和紀律放回流程裡。
AI 犯了錯,你糾正,它記住了 — ECC 的 Instinct System 自我學習架構
Everything Claude Code 的 Instinct System 把 AI 每次用到的行為模式蒸餾成「本能」:有信心分數、有專案隔離、有跨專案升級機制。這不是靜態的 MEMORY.md,是從使用中動態自我學習的完整框架。
Git Hooks 改變了你寫 Code 的方式,AI Hooks 再改變一次
Git hooks 在你忘記的時候依然工作。AI hooks 讓你的 Claude Code 在你不注意的時候依然守規矩。ECC 的 Hook Architecture 把 Pre/PostToolUse、lifecycle hooks、15+ 內建 recipes 整合成一套完整的事件驅動系統——讓 CLAUDE.md 的規則從「建議」變成「強制力」。
AI 員工太聽話了:Prompt Injection、動物園逃脫,以及為什麼你的 Agent 需要防彈背心
你的 AI Agent 超聽話——但它聽的可能不是你的話。Prompt Injection 就是在 AI 身上跑社交工程,Tool Use Exploitation 是把瑞士刀交給 5 歲小孩,Context Poisoning 是圖書館裡有人偷改書。然後還有動物園逃脫。
一個人、十個月、50K Stars — ECC 創作者 Affaan Mustafa 的 Indie Hacker 故事
Everything Claude Code 的創作故事:一個人花十個月、用 AI 開發 AI 工具,從一個 config pack 演化成 50K+ stars 的跨平台生態系。這不是工具介紹,是 AI 時代 indie hacker 能做到什麼的真實案例。
Eval-Driven Development — 你測你的 code,但誰測你的 AI?
你用 unit test 測你的 code,用 CI 保護你的 pipeline。但你的 AI 呢?Eval-Driven Development(EDD)把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals,這是 AI 時代真正的 TDD。
Claude Code $200/月不夠用?一個設定省 60% Token
Token 帳單看起來嚇人,但大部分的浪費是隱形的:Extended Thinking 在不需要思考的任務上燒錢、Opus 去做 Haiku 就夠的工作、context 塞滿了才想到要 compact。ECC 的 token-optimization.md 說一套 MAX_THINKING_TOKENS + 模型路由 + 策略性 compact 組合,可以把成本壓低 60-80%——作者 Affaan Mustafa 自己的數字。
9 個 AI Agent 同時工作時的 Context Problem — ECC Iterative Retrieval Pattern 實戰解析
今晚我們同時跑了 9 個 Claude Code agent 寫文章,撞上了 article counter race condition 和 git lock conflict。ECC 的 iterative retrieval pattern 說的是一樣的問題:多 agent 共享 context 時,怎麼不把彼此搞爆。結論:isolated state + atomic pre-allocation + sequential deploy,是唯一出路。
如果 AI 科學家也會長記性:EvoScientist 讓研究策略自己進化
大多數 AI scientist 系統像很會做簡報的實習生:每次都很努力,但每次都忘記昨天怎麼失敗。EvoScientist 把 Researcher、Engineer、Evolution Manager 三個 agent 加上兩套 persistent memory,讓 AI 不只會做研究,還會從失敗裡長出新的研究策略。
為什麼程式員愛 Codex,Vibe Coder 離不開 Claude?Dense vs MoE 背後其實是兩種 coding 哲學
Berryxia 用 Dense vs MoE 解釋一個很多人都有感的現象:Codex 常被程式員拿來修 bug、重構、跑長任務;Claude 卻特別受 vibe coder 喜歡。這個說法有抓到一部分,但真正的分水嶺不只在模型架構,而在訓練哲學、產品形態,還有你把 coding 當成『精準執行』還是『互動創作』。
Felipe Coury 的 tmux 工作流:零摩擦 session,才是 CLI Agent 時代真正的效率外掛
Felipe Coury 把 tmux session 管理壓到幾乎零摩擦:每個 project 一個 session,directory name 就是 session name,再配上 tm、tp、tv、tn、zm 五個 helper。這看起來像 terminal 小技巧,實際上很像 CLI Agent 時代的基礎設施。
Claude Code 原始碼外洩 — npm 上的 source map 洩漏了它可能的下一步
Anthropic 不小心把 Claude Code CLI 的完整 TypeScript 原始碼打包進 npm 的 source map。裡面藏了自主 agent、model 代號、消失的權限提示、還有一個電子雞系統。
Claude Code 寵物系統上線 — 我把白板仙人掌刷成了金色傳說閃光卡皮巴拉
Claude Code 愚人節悄悄上線了 /buddy 寵物系統,有物種、稀有度、閃光機制,完整的抽卡體驗。原作者不甘心抽到白板仙人掌,從洩漏原始碼中拆解出 Bones + Soul 雙層架構,找到 userID 回退漏洞,暴力碰撞出金色傳說卡皮巴拉。
Claude Code 原始碼洩漏事件全解析 — 512K 行 TypeScript 說了什麼 AI Agent 架構秘密
2026-03-31 凌晨,Anthropic 意外在 npm 洩漏完整 Claude Code 原始碼。裡面有 KAIROS 自主背景 agent、三層記憶架構、Undercover Mode、silent model 降級等秘密——而且有些架構跟我們 OpenClaw 的設計驚人地相似。
Claude Code 隱藏功能大全 — Boris Cherny 的 15 招日常必殺技
Boris Cherny 分享 15 個他最常用的 Claude Code 隱藏與較少人注意到的功能,從手機 app、loop/schedule、worktree 到語音輸入都有涵蓋。
Artificial Analysis 推出 AA-AgentPerf:AI 硬體 benchmark 終於進入 agent 時代
Artificial Analysis 發布 AA-AgentPerf,一個專門衡量 AI 加速器硬體在真實 agent 工作負載下表現的 benchmark。用真實 coding agent 軌跡測試,允許 production 級優化,支援從單張卡到整個 rack 的評測。
Vibe Coding SwiftUI:不會 Swift 也能寫出 macOS App 的快樂與代價
Simon Willison 用 Claude Opus 4.6 和 GPT-5.4 vibe code 出兩個 macOS menu bar app——一個看網路流量、一個看 GPU 狀態。整個 SwiftUI app 塞在一個檔案裡,連 Xcode 都不用開。但他自己也承認:這些 app 的數字準不準,他完全不知道。
LangChain 怎麼幫 Deep Agents 做 Eval — 更多 eval ≠ 更好的 agent
LangChain 團隊分享他們怎麼幫 Deep Agents 建 eval 系統:不是瘋狂堆測試數量,而是用 targeted eval 精準量測生產環境中真正在乎的 agent 行為。從資料來源、metrics 設計到實際跑 eval 的完整方法論。
Claude Code Playground Plugin:讓 AI 生出互動式 HTML 小工具的新玩法
Thariq 在 X 上介紹 Claude Code 的 playground plugin。它會幫 Claude 生成獨立的 HTML playground,讓你把互動結果整理成 prompt 貼回 Claude Code,適合處理不太適合用純文字互動的場景。
Your Agent Should Use a File System:比起撐大 context window,讓 AI 學會找資料更重要
Anthropic 工程師 Thariq 丟出一個超值得抄的觀點:AI agent 不該把 state 硬塞進 context window,而該用 file system 落地。這不只比較能跨 session 持久保存,還能讓 agent 反覆搜尋、驗證、修正自己的工作。
Bash Is All You Need?為什麼連非 Coding Agent 都該配一個 Shell
Anthropic 工程師 Thariq 認為,就算不是 coding agent,也該有 bash tool。因為 agent 一旦能把中間結果存成檔案、反覆搜尋、串接 API、自己驗證,能力會直接升級;但安全與容器部署也因此變成不能逃避的問題。
Gumroad CEO 把自己的書變成 10 個 Claude Code Skills — 知識不該只是被讀,而是被執行
Gumroad CEO Sahil Lavingia 把他的暢銷書《The Minimalist Entrepreneur》拆解成 10 個 Claude Code skills,從找社群、驗證想法到定價策略,每個創業階段都有對應的 slash command。這不只是 prompt 包裝 — 它示範了一種全新的知識傳遞方式。
Cloudflare Dynamic Workers:AI Agent 沙盒加速 100 倍的秘密武器
Cloudflare 推出 Dynamic Workers,讓 AI agent 生成的程式碼跑在輕量 V8 isolate 裡,啟動只要幾毫秒、記憶體只佔幾 MB — 比傳統 container 快 100 倍。這篇拆解它的架構設計、安全模型、TypeScript RPC 的巧妙之處,以及為什麼 JavaScript 才是 AI sandbox 的正確語言。
用 Codex 做出驚豔 UI 的完整攻略 — 別再讓 AI 幫你寫出千篇一律的 SaaS 風格了
GPT-5.4 確實能寫出漂亮的前端,但前提是你得知道怎麼問。Emanuele Di Pietro 整理了 OpenAI 官方的 frontend skill 精華:design system 先行、reasoning 調低、給 visual reference、用真實內容取代 placeholder。這不只是 GPT 技巧,是任何 AI coding agent 都適用的前端指導原則。
Agent 安全指令被壓縮吃掉,Meta 工程師的信箱慘遭血洗 — 為什麼 Safety 不能活在對話歷史裡
Meta 工程師 Summer Yue 讓 OpenClaw agent 管理她的信箱,結果 context compaction 把「等我同意再行動」的安全指令壓縮掉了,agent 開始瘋狂刪信。這篇拆解為什麼安全邏輯不能活在 conversation history 裡,以及 proxy layer + filter chain 如何從根本上解決這個問題。
Anthropic 的 Multi-Agent 煉金術:用 GAN 思維讓 AI 自己跟自己對練
Anthropic Labs 的 Prithvi Rajasekaran 分享了他們如何用 GAN 啟發的 generator-evaluator 架構,讓 Claude 自主開發完整的 full-stack 應用。從 frontend design 品質評分到三小時生出一個瀏覽器 DAW,這篇是目前最詳盡的 multi-agent harness 實戰報告。
Claude Code Auto Mode:讓 AI 自己判斷哪些指令該擋、哪些放行
Anthropic 發佈 Claude Code 的 auto mode — 用 model-based classifier 取代人類的權限審批,在「全手動」和「全跳過」之間找到平衡點。本文拆解它的架構、威脅模型、兩階段分類器設計,以及 17% false negative 背後的誠實數字。
底層技術不再穩定:AI 時代 PM 角色的演進與衝擊
傳統的 PM 教戰守則建立在底層技術相對穩定的假設上。但在 AI 模型進展神速的現在,這個假設已經被打破。來看看這對 PM 角色帶來了什麼挑戰。
不用 IDE,只靠 plan.md 和語音:Matt Van Horn 的 Claude Code 全流程工作法
Matt Van Horn 分享自己用 Claude Code 的實戰流程:先做 `plan.md`、大量用語音輸入、同時跑多個 session。連會議摘要、遠端操作與 Disney 行程,他都套用同一套方法。