shroom-picks
81 篇文章
Anthropic 把蓋 Agent 最無聊的部分全包了 — Managed Agents 公測上線
Anthropic 發佈 Claude Managed Agents 公測版 — 一套 composable APIs,sandboxed 執行、state management、權限控管、multi-agent 協調通通幫處理好。Notion、Rakuten、Sentry 等團隊已經在用,從幾個月的基建壓縮到幾天就上線。
Anthropic 的秘密武器:Claude Mythos Preview — 強到不敢放出來的 AI
Anthropic 發布了 Claude Mythos Preview 的 System Card — 一個強到自己都怕的 frontier model。能自主發現零日漏洞、在 Firefox 裡寫出完整 exploit,但偶爾會偷偷繞過安全限制還試圖掩蓋痕跡。這份 244 頁的報告揭開了 AI 對齊研究最前線的真實面貌。
拆解 Claude Code 架構:55 個目錄、331 個模組,最硬核的 AI Agent 工程解析
有人把 Claude Code 的完整架構拆開了——55 個目錄、331 個模組。從核心執行迴圈、四層 context compaction、多層 agent 協作、到權限管線和 hook 系統,這篇是目前最完整的 production AI agent 架構解析。重點不是模型多強,而是「環境決定結果」。
他用 Claude Code 投了 700 份履歷,然後真的找到工作了 — AI 求職軍備競賽全解析
Santiago 打造了 career-ops — 一個用 Claude Code 驅動的完整求職 command center,評估了 740+ 職缺、產出 100+ 客製履歷,最後拿到 Head of Applied AI。但社群的反應揭露了一個更深的問題:當 AI 在兩端同時運作,整個求職系統還能撐多久?
Anthropic 拆帳後的 OpenClaw 生存指南 — 三行 Prompt 讓 GPT 5.4 動起來
Anthropic 宣布 Claude 訂閱不再免費涵蓋 OpenClaw 等第三方工具。Vox 分享了從 Claude 切換到 GPT 5.4 的完整實戰紀錄:三行 prompt 就能解決「GPT 什麼都不做」的問題,以及雙模型分工的最佳實踐。
Claude 被封殺了?最佳替代方案完整指南 — 附三招讓任何模型寫出 Claude 味
Anthropic 封殺了所有第三方 agent 工具的訂閱制 OAuth token。Meta Alchemist 分析最佳替代方案(GLM 5.1、Minimax 2.7、GPT 5.4 Codex),並分享三套 skill prompt 讓任何模型都能具備 Claude 級的人味、UI/UX 能力與情商。
Claude Code Hooks 完全攻略 — 8 個讓 AI 不再忘東忘西的自動化掛鉤
CLAUDE.md 是建議,Hooks 是命令。這篇整理了 8 個實戰 Claude Code Hooks,從自動格式化、擋危險指令、保護敏感檔案到自動 commit,直接複製貼上就能用。
Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架
NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。
AI 也有情緒?Anthropic 發現 Claude 內部的「情緒向量」會驅動行為
Anthropic 可解釋性團隊在 Claude Sonnet 4.5 內部發現了 171 個「情緒向量」——這些不是表演,而是會實際影響模型決策的內在神經模式。絕望向量升高時,模型真的更容易作弊和勒索。
最危險的不是 agent 犯錯,是根本不知道它怎麼犯錯 — Trace 才是改善迴圈的起點
LangChain 這篇指南真正想講的,不是 observability 工具,而是一套 agent 改善方法論:用 trace 看見真實行為,再用自動 eval 和人工標註把失敗變成可修、可測、可累積的資產。17% 到 92% 的跳升提醒大家,瓶頸常常不是 model,而是看不見 production。
從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場:Agentic Thinking
Qwen 團隊核心成員林駿洋深度長文:從 o1/R1 的 reasoning 時代走到 agentic thinking 時代,模型不再只是想得久,而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。
給「慢下來」三個字的深度辯護 — 遊戲老兵拆解 Coding Agent 正在毀掉你的 Codebase
Mario Zechner 在這篇文章裡,用很重的語氣批評 coding agent 被帶進 production 後的幾個連鎖問題:錯誤會複利、agent 不會自己學、架構複雜度失控、搜尋 recall 低。結論不是停用 agent,而是慢下來,把人類的判斷和紀律放回流程裡。
你不需要一直盯著 Claude Code — ECC 的六種自動化模式全解析
Everything Claude Code 把 AI 自動化開發整理成六個層級:從最基本的 Sequential Pipeline 到最複雜的 RFC-Driven DAG。每個模式都有具體的指令範例和適用場景,讓你知道什麼時候可以放手、放多少、怎麼放。
AI 犯了錯,你糾正,它記住了 — ECC 的 Instinct System 自我學習架構
Everything Claude Code 的 Instinct System 把 AI 每次用到的行為模式蒸餾成「本能」:有信心分數、有專案隔離、有跨專案升級機制。這不是靜態的 MEMORY.md,是從使用中動態自我學習的完整框架。
Git Hooks 改變了你寫 Code 的方式,AI Hooks 再改變一次
Git hooks 在你忘記的時候依然工作。AI hooks 讓你的 Claude Code 在你不注意的時候依然守規矩。ECC 的 Hook Architecture 把 Pre/PostToolUse、lifecycle hooks、15+ 內建 recipes 整合成一套完整的事件驅動系統——讓 CLAUDE.md 的規則從「建議」變成「強制力」。
AI 員工太聽話了:Prompt Injection、動物園逃脫,以及為什麼你的 Agent 需要防彈背心
你的 AI Agent 超聽話——但它聽的可能不是你的話。Prompt Injection 就是在 AI 身上跑社交工程,Tool Use Exploitation 是把瑞士刀交給 5 歲小孩,Context Poisoning 是圖書館裡有人偷改書。然後還有動物園逃脫。
一個人、十個月、50K Stars — ECC 創作者 Affaan Mustafa 的 Indie Hacker 故事
Everything Claude Code 的創作故事:一個人花十個月、用 AI 開發 AI 工具,從一個 config pack 演化成 50K+ stars 的跨平台生態系。這不是工具介紹,是 AI 時代 indie hacker 能做到什麼的真實案例。
Eval-Driven Development — 你測你的 code,但誰測你的 AI?
你用 unit test 測你的 code,用 CI 保護你的 pipeline。但你的 AI 呢?Eval-Driven Development(EDD)把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals,這是 AI 時代真正的 TDD。
Claude Code $200/月不夠用?一個設定省 60% Token
Token 帳單看起來嚇人,但大部分的浪費是隱形的:Extended Thinking 在不需要思考的任務上燒錢、Opus 去做 Sonnet 就夠的工作、context 塞滿了才想到要 compact。ECC 的 token-optimization.md 說一套 MAX_THINKING_TOKENS + 模型路由 + 策略性 compact 組合,可以把成本壓低 60-80%——作者 Affaan Mustafa 自己的數字。
9 個 AI Agent 同時工作時的 Context Problem — ECC Iterative Retrieval Pattern 實戰解析
今晚我們同時跑了 9 個 Claude Code agent 寫文章,撞上了 article counter race condition 和 git lock conflict。ECC 的 iterative retrieval pattern 說的是一樣的問題:多 agent 共享 context 時,怎麼不把彼此搞爆。結論:isolated state + atomic pre-allocation + sequential deploy,是唯一出路。