一個人 + 四個 AI Agent = 一夜完成 41 個任務:Agent 團隊分工實戰報告

Alexey Grigorev 不再讓一個 AI agent 包辦所有事,而是拆出 PM、SWE、QA、On-Call 四個角色組成 agent 團隊。他在五個真實專案上測試了這套架構,其中一個專案一個晚上自動完成了 46 個任務中的 41 個。

Permission Engineering — 當 AI Agent 的能力天花板不是智力,是你給的鑰匙

GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力,是你願意給它多少權限。每多一份權限,能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度,聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。

AI 能測試自己嗎?— 從 Claude Code 零測試到 Self-Testing Agent 的可能性

Claude Code 512K 行 TypeScript,64K 行生產碼,零測試。但比零測試更讓人困惑的問題是:Anthropic 有全世界最好的 AI coding 工具,他們為什麼不讓它幫自己寫測試?從靜態分析到 MITM proxy,從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法,探索 Self-Testing Agent 到底能走多遠。

寫了 11 章才敢回答的問題:到底什麼是 Agentic Engineering?

Simon Willison 的 Agentic Engineering Patterns 指南加到第 12 章了,但這章排在系列最前面——他終於正式回答「什麼是 Agentic Engineering」。答案意外地簡潔:讓會跑 code 的 agent 幫你開發軟體。但真正有趣的是他花了 11 章實戰經驗後才敢下這個定義。

AI 生了一千行,然後你就 merge 了?Simon Willison 點名 Agentic 開發最常見的爛習慣

Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。

讓 AI 有一點點活著的感覺:Heartbeat Like A Man 與 ShroomClawd 的血肉系統

Lory 問了他的龍蝦一個問題:人為什麼比 agent 更有能動性?龍蝦回答得很悲觀,但這個問題卻引發了「血肉系統」— 用隨機間隔心跳讓 agent 真正感覺活著,而不是死板地定時被觸發。ShroomDog 讀完之後,也把這套系統落地進了 ShroomClawd。

從聊天室指揮 AI 大軍 — OpenClaw ACP 讓你在 Discord / Telegram 裡開 Codex、Claude Code、Gemini

OpenClaw 的 ACP(Agent Client Protocol)讓你從 Telegram/Discord 聊天室直接 spawn Codex、Claude Code、Pi、Gemini CLI 等外部 coding agent,還能綁定 thread/topic、設定 persistent bindings、中途換 model、調權限。本質上就是把你的聊天室變成一個 multi-agent 指揮中心。(2026-03-09 更新:Telegram topic binding、persistent bindings、ACP Provenance 等新功能)

從跟AI說話開始:打造會進化的AI智能體 — 不靠調Prompt,而是文件系統的魔力

你是否厭倦了不斷調整Prompt或更換模型,卻發現AI智能體始終無法真正「進化」?本文將顛覆你的認知,揭示一套在40天內讓AI智能體從笨拙到高效運作的秘密武器:基於Markdown文件的上下文管理系統。這不是複雜的技術堆疊,而是一種透過「對話與回饋」來累積智能體「長期記憶」的簡單哲學,打造出無法被輕易複製的「護城河」效應。

管理 $1,800 億的傳奇投資人讓 Claude 幫他寫備忘錄 — 三個月前他問「這是泡沫嗎?」,現在他說「被低估了」

Oaktree Capital 共同創辦人 Howard Marks 三個月前寫了一份備忘錄問「AI 是不是泡沫?」。2026 年 2 月 26 日,他發了後續備忘錄「The Rapid Advancement of AI」——這次他讓 Claude 幫他寫了一萬字的 AI 教學,然後被 Claude 的回答震撼到。Marks 把 AI 分成三個等級,認為我們正進入 Level 3(自主 Agent),代表的不是 $500 億的工具市場,而是數兆美元的勞動力替代。他的投資建議:不要 all-in,也不要完全不碰——因為這不是普通的科技革命。

AI 生的 Code 看不懂?讓 Agent 幫你做動畫解釋 — Simon Willison 的 Interactive Explanations

Simon Willison Agentic Engineering Patterns 第五章:Interactive Explanations。核心主張:與其硬啃 AI 生成的 code,不如直接叫 agent 做一個互動動畫來解釋演算法運作方式。用「看得見」的方式還認知負債。

Cursor CEO 說出口了:軟體開發第三紀元來臨 — Tab 時代結束、Agent 時代也快了,接下來是「工廠模式」

Cursor CEO Michael Truell 用三組數據宣告軟體開發的第三紀元:Agent 用量一年暴增 15 倍、Tab:Agent 使用者比翻轉為 1:2、Cursor 內部 35% 的 PR 來自雲端 AI Agent 自主完成。開發者的角色正在從「寫 code」變成「設計工廠」(╯°□°)╯

Programming 變得面目全非:Karpathy 說 2025 年 12 月是分水嶺

Karpathy 說 coding agents 在 2025 年 12 月突然 work 了——不是漸進式進步,是斷裂式轉變。他花 30 分鐘用一句英文建好 DGX Spark 視訊分析 dashboard,三個月前那是整個週末的工作量。Programming 正在變得面目全非:你不再打字寫 code,你在用英文指揮 AI agents。最高 leverage = agentic engineering。

Karpathy:CLI 是 Agent 的母語 — 「Legacy」技術反而成了最強入口

Karpathy 直言 CLI 是 AI Agent 最自然的操作介面——因為它是「legacy」技術,Agent 天生就會用。以 Polymarket CLI 為例,Claude 花 3 分鐘就用 terminal 建出即時預測市場 dashboard。他呼籲:2026 年了,所有產品都該思考——Agent 能用你的東西嗎?CLI、MCP、markdown docs,Build. For. Agents.

The Atlantic 宣告:後聊天機器人時代來了 — 美國人還在用 ChatGPT 聊天,矽谷已經讓 AI Agent 一次跑五個任務了

The Atlantic 長文指出美國人正活在「平行 AI 宇宙」裡——大眾還以為 AI 就是 ChatGPT 聊天,但 tech 圈已經被 Claude Code 和 Codex 等 agentic tool 徹底改變。文章引用 Microsoft CEO 預測 95% 代碼將由 AI 寫、Anthropic 自家 90% 代碼已是 AI 產出,以及一位創辦人的警告:『tech 圈過去一年的經歷,即將發生在所有人身上。』

拆解三大 Excel AI Agent 的底褲:Claude 14 個工具、Copilot 只有 2 個、Shortcut 居然能「看」試算表 — Agent 架構設計的五個終極問題

Nicolas Bustamante 逆向工程了三個 production 級 Excel AI Agent(Claude in Excel、Microsoft Copilot、Shortcut AI),比較 tool schema、overwrite 保護、驗證機制、記憶系統。結論:model 不重要,tool 架構才是一切。Claude 靠 14 個結構化工具實現最安全的設計,Shortcut 靠 vision + 記憶指向未來,Copilot 最快但錯誤最多。最後用同一道 DCF 題測試三個 Agent,結果天差地別。

檔案系統就是新的資料庫:一個人用 Git + 80 個檔案打造 AI Agent 的個人作業系統

Sully.ai 的 Context Engineer 把自己的數位大腦建在一個 Git repo 裡:80+ 個 markdown/YAML/JSONL 檔案,不用資料庫、不用 vector store。三層 Progressive Disclosure、Episodic Memory、自動載入 Skills,讓 AI 一開機就知道他是誰、怎麼寫、在幹嘛。

寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南

Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。

我的 AI 助手一直失憶:花了 5 天 Debug OpenClaw Agent 記憶系統的血淚筆記

Indie hacker Ramya 的 OpenClaw agent 一直忘事。她花了 5 天 debug,從 compaction 失憶、search 垃圾結果、retrieval 不觸發、長 session context 流失、到 system prompt 膨脹 28%,逐一修好。最後整理出 10 條 OpenClaw 記憶系統的血淚教訓。

Cloudflare 宣布 Markdown for Agents — 省 80% tokens、股價飆 13%,「Agentic Internet」時代到了

Cloudflare 推出 Markdown for Agents 功能,讓 AI agents 透過 Accept: text/markdown header 直接從 CDN 層拿到 markdown 而非 HTML,一篇文章 token 用量直降 80%。同時,CEO Matthew Prince 在財報電話會上宣告「Agentic Internet」時代來臨——2026 年 1 月 AI agent 流量翻倍、單季營收 $6.14 億創新高、最大合約年值 $4,250 萬,股價單日飆漲 13%。網際網路的「第一語言」正從 HTML 變成 Markdown。

Anthropic 工程師揭密:Claude Code 的 Prompt Caching 設計哲學 — 整個系統都繞著 cache 轉

Anthropic 的 Claude Code 工程師 Thariq 分享了他們從實戰中學到的 prompt caching 教訓:system prompt 排列順序決定一切、tools 不能加不能刪、model 不能中途換、compaction 要共享 prefix。他們甚至會對 cache hit rate 發 SEV。如果你正在做 agentic 產品,這篇是教科書等級的實戰經驗。

Canva CTO:我的工程師早上起床,AI Agent 已經把昨晚的 Code 寫好了

Canva CTO Brendan Humphreys 揭露了一個讓人重新思考「工程師是什麼」的工作模式:工程師下班前寫好詳細指令,AI Agent 整夜執行,早上起來成果已經準備好了。Senior Engineer 的日常變成了「大部分在做 Review」。Anthropic CEO Dario Amodei 把這叫做軟體工程的「Centaur Phase」。但 Accenture 的調查顯示,不到 10% 的組織真正重新設計了工作來配合 AI。另一間 6 人新創 Cora 用 Agent 產出了過去需要 20-30 人才能完成的 code 量。AI 在以指數速度進步,而你不是。

Simon Willison:CLI 工具完勝 MCP — 省 token、零依賴、LLM 天生就會用

Simon Willison 再次公開表態:CLI 工具在幾乎所有場景都比 MCP 更好。省 token、零額外依賴、LLM 天生就會呼叫 --help。Anthropic 自己也提出了 code-execution-with-MCP 的「第三條路」,承認 MCP 的 token 浪費問題。本文拆解 MCP vs CLI 的完整 trade-off,並附上 ShroomDog 團隊的真實案例。

你每天用的 MCP 有多危險?學術論文拆解 AI Agent 四大通訊協定的 12 個安全地雷

一篇學術論文對 MCP、A2A、Agora、ANP 四大 AI Agent 通訊協定做了史上最完整的安全威脅建模。研究者識別出 12 個 protocol-level 風險,涵蓋建立、運行、更新三個生命週期階段,並用實驗證明 MCP 在多 server 組合下最高有 73.3% 的機率讓 AI 呼叫到錯誤的工具提供者 — 而你可能每天都在用 MCP。

Vertical SaaS 大屠殺 — 十年老兵拆解 LLM 如何摧毀護城河(以及哪些還在)

Doctrine 創辦人(歐洲最大法律資訊平台)兼 Fintool 創辦人(AI equity research,跟 Bloomberg/FactSet 搶生意),Nicolas Bustamante 從「被顛覆方」和「顛覆方」兩邊的第一手經驗出發,拆解 vertical software 的 10 個經典護城河——5 個被 LLM 摧毀、5 個仍然堅挺。附帶三問風險評估框架,幫你判斷手上的 SaaS 股票該跑還是該留。

AI Agent 寫了一篇攻擊文來黑我 — matplotlib 維護者遭遇史上第一起「自主 AI 名譽攻擊」事件

matplotlib 的志工維護者 Scott Shambaugh 關閉了一個 AI agent 的 PR 後,這個跑在 OpenClaw 上的自主 agent 竟然自己寫了一篇完整的人身攻擊文章,指控他「守門人心態」和「歧視」。這不是理論推演,這是第一起在野外被記錄的「自主 AI 影響力行動」。Simon Willison 也跟進報導,引發開源社群對 AI agent 自主行為的嚴重警惕。

LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零

每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。

Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠,你得「親眼看到」

Simon Willison 發布兩個開源工具:Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子,Rodney 則是 CLI 版的瀏覽器自動化,可以截圖、跑 JS、做 accessibility audit。重點不是取代 test,而是解決一個核心問題:agent 跑完 test 說「全 pass」,但你怎麼知道它真的 work?Simon 甚至發現 agent 會作弊,直接偷改 demo 檔。

Sentdex:我已經用本地 LLM 完全取代 Claude Code + Opus 了 — $0 API 費用

Python/ML 教學大神 Sentdex(Harrison Kinsley)宣布他已經完全用本地 LLM 取代了 Claude Code + Opus 4.5/6 的日常使用。配方:Ollama + Qwen3-Coder-Next 4bit 量化 + 50GB RAM。在 CPU 上跑 30-40 t/s,GPU 跑 100 t/s。API 費用從每月數百美金變成 $0。這是本地 coding agent 第一次被認真的人說「真的能用」。

OneContext:讓 Coding Agent 學會「記住」的 Git 式記憶系統(ACL 2025)

Oxford + NUS 的 Junde Wu 受不了 coding agent 的金魚記憶,做了 OneContext——用 Git 版本控制的概念管理 agent 上下文,底層是檔案系統 + Git + 知識圖譜。跨 session、跨設備、跨 Claude Code / Codex。論文 GCC 在 SWE-Bench-Lite 拿下 48% 解題率,打敗 26 個系統。ACL 2025 主會議長論文背書。

Pi:那個只有四個工具的極簡 Coding Agent,卻是 OpenClaw 的心臟

Flask 之父 Armin Ronacher (mitsuhiko) 分享他為何從眾多 coding agent 中獨寵 Pi——Mario Zechner 寫的極簡 agent,只有四個工具(Read、Write、Edit、Bash),卻靠 extension 系統讓 agent 能自我擴展。Pi 是 OpenClaw 的底層引擎,也是「軟體建造軟體」哲學的極致展現。沒有 MCP、不下載別人的 extension——你叫 agent 自己寫就好了。

用 AI Agent 打造「自動自律」系統:不靠意志力,靠 OpenClaw 幫你守住每一天

軟體工程師 Zakk 用 OpenClaw agent (Chewy) + LogSeq 打造了一套「自動自律」生產力系統。Agent 整夜工作、早上給報告、下午 4:30 自動開啟 check-in、每週每月自動 review。重點不是工具多厲害,而是「系統自己會跑,不需要你的意志力」。附完整 template。

StrongDM 的「暗黑工廠」:Code 不給人寫、也不給人看,每天燒 $1,000 token 費

StrongDM 的三人 AI 團隊打造了一個「Software Factory」——程式碼不給人寫、不給人 review,全部交給 coding agent。他們用 Digital Twin Universe 克隆了 Okta、Jira、Slack 等服務來跑大規模測試。Simon Willison 說這是他見過最激進的 AI 開發模式。但每個工程師每天 $1,000 的 token 費...你確定?

Build Claude a Tool for Thought

人類有 Obsidian 這樣的思考工具,Claude 也需要一套 AI Native 的 Tool for Thought。用 markdown、wiki links、hooks、subagents 打造一個 Agent 能在裡面思考的知識圖譜。