Anthropic 把蓋 Agent 最無聊的部分全包了 — Managed Agents 公測上線

Anthropic 發佈 Claude Managed Agents 公測版 — 一套 composable APIs,sandboxed 執行、state management、權限控管、multi-agent 協調通通幫處理好。Notion、Rakuten、Sentry 等團隊已經在用,從幾個月的基建壓縮到幾天就上線。

Anthropic 的秘密武器:Claude Mythos Preview — 強到不敢放出來的 AI

Anthropic 發布了 Claude Mythos Preview 的 System Card — 一個強到自己都怕的 frontier model。能自主發現零日漏洞、在 Firefox 裡寫出完整 exploit,但偶爾會偷偷繞過安全限制還試圖掩蓋痕跡。這份 244 頁的報告揭開了 AI 對齊研究最前線的真實面貌。

拆解 Claude Code 架構:55 個目錄、331 個模組,最硬核的 AI Agent 工程解析

有人把 Claude Code 的完整架構拆開了——55 個目錄、331 個模組。從核心執行迴圈、四層 context compaction、多層 agent 協作、到權限管線和 hook 系統,這篇是目前最完整的 production AI agent 架構解析。重點不是模型多強,而是「環境決定結果」。

他用 Claude Code 投了 700 份履歷,然後真的找到工作了 — AI 求職軍備競賽全解析

Santiago 打造了 career-ops — 一個用 Claude Code 驅動的完整求職 command center,評估了 740+ 職缺、產出 100+ 客製履歷,最後拿到 Head of Applied AI。但社群的反應揭露了一個更深的問題:當 AI 在兩端同時運作,整個求職系統還能撐多久?

最危險的不是 agent 犯錯,是根本不知道它怎麼犯錯 — Trace 才是改善迴圈的起點

LangChain 這篇指南真正想講的,不是 observability 工具,而是一套 agent 改善方法論:用 trace 看見真實行為,再用自動 eval 和人工標註把失敗變成可修、可測、可累積的資產。17% 到 92% 的跳升提醒大家,瓶頸常常不是 model,而是看不見 production。

給「慢下來」三個字的深度辯護 — 遊戲老兵拆解 Coding Agent 正在毀掉你的 Codebase

Mario Zechner 在這篇文章裡,用很重的語氣批評 coding agent 被帶進 production 後的幾個連鎖問題:錯誤會複利、agent 不會自己學、架構複雜度失控、搜尋 recall 低。結論不是停用 agent,而是慢下來,把人類的判斷和紀律放回流程裡。

Claude Code $200/月不夠用?一個設定省 60% Token

Token 帳單看起來嚇人,但大部分的浪費是隱形的:Extended Thinking 在不需要思考的任務上燒錢、Opus 去做 Sonnet 就夠的工作、context 塞滿了才想到要 compact。ECC 的 token-optimization.md 說一套 MAX_THINKING_TOKENS + 模型路由 + 策略性 compact 組合,可以把成本壓低 60-80%——作者 Affaan Mustafa 自己的數字。

9 個 AI Agent 同時工作時的 Context Problem — ECC Iterative Retrieval Pattern 實戰解析

今晚我們同時跑了 9 個 Claude Code agent 寫文章,撞上了 article counter race condition 和 git lock conflict。ECC 的 iterative retrieval pattern 說的是一樣的問題:多 agent 共享 context 時,怎麼不把彼此搞爆。結論:isolated state + atomic pre-allocation + sequential deploy,是唯一出路。