Claude Code 的 5 個反面教材 — AI 時代的 Bad Design Patterns

Claude Code 原始碼洩漏,社群盯著 KAIROS 和 model codenames 看。但裡面還有另一面:5 個讓 $2.5B ARR 產品顯得很尷尬的設計決策。這些不是 Anthropic 獨有的問題——它們是 AI 生成 code 的系統性陷阱,你的 codebase 裡很可能也有。

寫了 11 章才敢回答的問題:到底什麼是 Agentic Engineering?

Simon Willison 的 Agentic Engineering Patterns 指南加到第 12 章了,但這章排在系列最前面——他終於正式回答「什麼是 Agentic Engineering」。答案意外地簡潔:讓會跑 code 的 agent 幫你開發軟體。但真正有趣的是他花了 11 章實戰經驗後才敢下這個定義。

AI 生了一千行,然後你就 merge 了?Simon Willison 點名 Agentic 開發最常見的爛習慣

Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。

從聊天室指揮 AI 大軍 — OpenClaw ACP 讓你在 Discord / Telegram 裡開 Codex、Claude Code、Gemini

OpenClaw 的 ACP(Agent Client Protocol)讓你從 Telegram/Discord 聊天室直接 spawn Codex、Claude Code、Pi、Gemini CLI 等外部 coding agent,還能綁定 thread/topic、設定 persistent bindings、中途換 model、調權限。本質上就是把你的聊天室變成一個 multi-agent 指揮中心。(2026-03-09 更新:Telegram topic binding、persistent bindings、ACP Provenance 等新功能)

Karpathy 用 8 個 AI Agent 組了一個研究團隊 — 結果它們根本不會做研究

Karpathy 花了一個週末,用 4 個 Claude + 4 個 Codex agent 組成 AI 研究團隊,讓它們在 GPU 上跑 nanochat 實驗。結論:Agents 執行力一流,但實驗設計能力是零分。「你現在是在寫一個組織的程式碼」— 這句話可能定義了 2026 年的 agentic engineering (╯°□°)╯

AI 生的 Code 看不懂?讓 Agent 幫你做動畫解釋 — Simon Willison 的 Interactive Explanations

Simon Willison Agentic Engineering Patterns 第五章:Interactive Explanations。核心主張:與其硬啃 AI 生成的 code,不如直接叫 agent 做一個互動動畫來解釋演算法運作方式。用「看得見」的方式還認知負債。

claude -p 完全攻略:把 Claude CLI 變成你的 Agentic App 後端

Anthropic 砍了第三方 OAuth token,只剩官方 Claude CLI 能用訂閱額度。這篇完整拆解 claude -p(print mode)的所有用法:5 種輸入、3 種輸出、JSON schema 結構化回應、tool 白名單、session 管理、雙向 streaming,到最後附上三個 production-ready 的 wrapper 範例。想用 Claude 寫 agentic app 的人必讀。

Claude 原生律師事務所:一個律師如何用 AI 幹掉百人大所

一個只有兩人的精品律師事務所,靠 Claude 處理原本需要十幾個 associate 的工作量。從合約審閱、tracked changes 到法律研究,全部用 Claude Skills 編碼十年執業經驗。這篇不是理論,是每天在用的 workflow — 而且結論是:通用 AI 打爆所有法律垂直 AI 產品。

Cursor CEO 說出口了:軟體開發第三紀元來臨 — Tab 時代結束、Agent 時代也快了,接下來是「工廠模式」

Cursor CEO Michael Truell 用三組數據宣告軟體開發的第三紀元:Agent 用量一年暴增 15 倍、Tab:Agent 使用者比翻轉為 1:2、Cursor 內部 35% 的 PR 來自雲端 AI Agent 自主完成。開發者的角色正在從「寫 code」變成「設計工廠」(╯°□°)╯

一個工程師 + AI,一週重建 Next.js——然後 tldraw 嚇到把測試搬進私有 repo

Cloudflare 工程師 Steve Faulkner 用 Claude AI 花一週、$1,100 token 費用,從零重建了 Next.js 的 94% API,產出的 vinext 比 Next.js 快 4.4 倍、bundle 小 57%。關鍵武器?Next.js 公開的測試套件。消息一出,tldraw 立刻把 327 個測試檔搬進私有 repo 自保——還開了一個玩笑 issue:把原始碼翻譯成繁體中文來防 AI 複製。當你的 test suite 變成敵人的 spec,Open Source 的遊戲規則就徹底變了。

Programming 變得面目全非:Karpathy 說 2025 年 12 月是分水嶺

Karpathy 說 coding agents 在 2025 年 12 月突然 work 了——不是漸進式進步,是斷裂式轉變。他花 30 分鐘用一句英文建好 DGX Spark 視訊分析 dashboard,三個月前那是整個週末的工作量。Programming 正在變得面目全非:你不再打字寫 code,你在用英文指揮 AI agents。最高 leverage = agentic engineering。

Andrew Ng:我已經不看 AI 寫的 Code 了 — 當 Python 變成新的 Assembly,「X Engineer」時代來了

Andrew Ng 在 The Batch 第 341 期公開表示,他不只停止手寫程式碼,更「早就不讀 AI 生成的程式碼了」。他認為開發者應該在更高的抽象層次操作,把程式碼交給 coding agent 管理。同時他觀察到「X Engineer」職位正在浮現 — Recruiting Engineer、Marketing Engineer — 每個業務部門都會有人用 AI 寫軟體。這是 AI 教育界最具影響力的人物,對「開發者未來」發出最激進的宣言。

Anthropic 大反攻:Cowork 企業版全面升級,10+ 產業 Plugin、私有 Marketplace、跨 App 工作流 — 軟體股瞬間反彈

Anthropic於2/24發布Claude Cowork企業級大更新,增10+產業Plugin、私有Plugin Marketplace及Google Workspace等連接器。曾致軟體股崩盤的Cowork Legal Plugin,這次宣布夥伴後,Salesforce漲4%、Thomson Reuters飆11%、FactSet漲6%。Anthropic從「取代」轉為「合作」。

Anthropic 收購 Vercept — R-CNN 發明者加入團隊,Computer Use 從 15% 飆到 72.5%,UiPath 股價應聲下跌

Anthropic 今天宣布收購 AI 視覺互動公司 Vercept,把 R-CNN 發明者 Ross Girshick(Google Scholar 引用超過 66 萬次)和共同創辦人 Kiana Ehsani、Luca Weihs 收入麾下。目標:讓 Claude 的 Computer Use 能力從「會操作電腦」進化到「跟人類一樣操作電腦」。OSWorld benchmark 已經從 2024 年底的不到 15% 飆到今天的 72.5%。消息一出,RPA 龍頭 UiPath 股價當天跌了 3.6%——華爾街用真金白銀投票:AI Computer Use 正在吃掉 RPA。

The Atlantic 宣告:後聊天機器人時代來了 — 美國人還在用 ChatGPT 聊天,矽谷已經讓 AI Agent 一次跑五個任務了

The Atlantic 長文指出美國人正活在「平行 AI 宇宙」裡——大眾還以為 AI 就是 ChatGPT 聊天,但 tech 圈已經被 Claude Code 和 Codex 等 agentic tool 徹底改變。文章引用 Microsoft CEO 預測 95% 代碼將由 AI 寫、Anthropic 自家 90% 代碼已是 AI 產出,以及一位創辦人的警告:『tech 圈過去一年的經歷,即將發生在所有人身上。』

每個 SaaS 現在都是 API — 不管你願不願意:6 人團隊幹掉 100 人後勤的實戰拆解

Fintool 創辦人 Nicolas Bustamante 用自身經驗展示:透過 Agent + API 串接所有 SaaS(Brex、QuickBooks、HubSpot、Stripe),6 人團隊處理了過去 100+ 人才能做的事。他提出 B2A(Business to Agent)概念,並警告沒有好 API 的 SaaS 將被 Agent 繞過甚至取代。

寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南

Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。

Claude Code CLI 內建 Git Worktree:平行跑多個 Agent,不再互踩分支

Claude Code CLI 正式把 Git worktree 變成內建能力(`--worktree`)。你可以同時開多個隔離的 Claude session,各自跑不同任務,不會互相覆蓋檔案。對 Tech Lead 來說,這代表多線開發和 AI 協作流程終於能標準化,不用再靠土炮 alias 與手動 branch 切換。

Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對

Epoch AI 更新 SWE-bench Verified 評測流程(v2.x)後,多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型,而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊:benchmark 不只是看模型,還要看評測管線是否可重現。

Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程

Google 發布 Gemini 3.1 Pro(preview),主打更強核心推理能力,並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說,重點不只是 benchmark,而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。

OpenClaw 作者用 50 個 Codex 平行審 PR:不用向量資料庫,也能吃下 3,000+ 變更洪流

OpenClaw 作者 Peter Steinberger 分享他處理大量 PR 的新流程:一次平行啟動 50 個 Codex,先把每個 PR 轉成 JSON 風險與意圖訊號,再集中到單一 session 做去重、關閉、合併決策。他強調在這種規模下,不一定需要向量資料庫;把高品質結構化報告餵進模型上下文,反而更快落地。

Anthropic 聯手 Infosys:AI Agent 正式進入電信與金融等高監管產業

Anthropic 與 Infosys 宣布合作,把 Claude 與 Infosys Topaz 整合,鎖定電信、金融、製造、軟體開發等高監管領域。重點不是做 chatbot demo,而是做可長時間執行、多步驟、可治理的 enterprise agent:例如合規報告自動化、風險偵測、legacy 系統現代化與程式交付加速。

手機就能跑推理模型?Liquid AI 把 LFM2.5-1.2B 壓進 900MB,邊緣 Agent 時代真的來了

Liquid AI 發布 LFM2.5-1.2B-Thinking:1.17B 參數、32K context,可在手機/NPU 裝置以不到 1GB 記憶體執行。官方數據顯示它在多數推理 benchmark 可匹敵或超越 Qwen3-1.7B,且速度更快、輸出 token 更少。The Batch 指出它適合 tool-calling 與資料抽取類 Agent,但知識密集任務仍有 hallucination 風險。

Karpathy:App Store 這個概念過時了 — 未來是 AI 即時組裝的一次性 App

Karpathy 今天早上想做心肺訓練追蹤,用 Claude Code 花一小時 vibe code 了一個完全客製化的 dashboard:逆向工程 Woodway 跑步機 API、拉數據、建前端。他的結論:App Store 裡那種「從一堆現成 app 中挑一個」的模式過時了。未來是 AI 原生的 sensor + actuator 服務,由 LLM 像膠水一樣即時組裝成高度客製化的一次性 app。一小時只是過渡——最終目標是一分鐘。

選 AI 不再只看模型 — Ethan Mollick 提出「Model / App / Harness」三層框架,一次搞懂 2026 的 AI 全局

華頓商學院教授 Ethan Mollick 在最新文章中提出一個簡單但改變遊戲規則的框架:選 AI 工具要看三層 — Model(模型腦袋)、App(使用介面)、Harness(韁繩/工具鏈)。同一個 Claude Opus 4.6,在聊天視窗裡只能閒聊,放進 Claude Code 就能自主寫程式跑測試幾小時不停,裝進 Claude Cowork 就能幫你整理報告操作電腦。框架之外,Mollick 還用 Claude Code 花一小時把 GPT-1 的 1.17 億個參數做成 80 本精裝書並上架販售——當天完售。

SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考

SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。

Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久,但你不敢放手

Anthropic 首度公開 Claude Code 和 API 的真實使用數據:最長自主跑動時間三個月內翻倍(45 分鐘以上)、老手有 40% 的 session 全部自動核准、Claude 主動停下來問問題的頻率比人類打斷它還高兩倍——但 73% 的 API 動作仍有人在監督。最驚人的發現:模型能處理的自主程度遠超過用戶實際給予的。Anthropic 稱之為「部署落差」。

Claude Code 藏起你的檔案名稱,開發者怒了 — Boris 本人上 HN 滅火的 72 小時

Claude Code v2.1.20 把預設 UI 從顯示完整檔案路徑改成「Read 3 files」一行摘要,引爆 1082 點 HN 討論串和 700+ 則留言。開發者憤怒的不只是 UI 變動——而是 AI 工具藏起自己在做什麼的哲學問題。Boris Cherny 親自上 HN 和 GitHub 回應、承認命名錯誤、連出三輪修復。這場爭論揭露了 AI 工具設計中最核心的張力:簡潔 vs 透明。

十年 Vertical SaaS 老兵的自白:$1 兆蒸發不冤枉,但時間點太早了

Fintool 創辦人、前 Doctrine(歐洲最大法律資訊平台)創辦人 Nicolas Bustamante 用十年實戰經驗拆解 SaaS 崩盤。他拆出 10 條護城河,逐一分析 LLM 摧毀了哪些、留下了哪些。結論:5 條被摧毀的正好是擋住競爭者的那些,5 條存活的只有少數公司才有。他還提出一個 3 問題快篩框架,讓你 30 秒判斷一家 SaaS 公司能不能活。Patrick O'Shaughnessy 說這是他讀過最好的 AI 時代軟體護城河分析。

Hugging Face CTO 預言:Monolith 回歸、Dependency 滅亡、Strongly Typed 語言崛起 — AI 正在重寫軟體世界的結構

Hugging Face CTO Thomas Wolf 發了一篇重磅長文,分析 AI 如何從根本上改變軟體的結構。不是「AI 幫你寫 code」那種表面改變,而是 Monolith 回歸、Lindy Effect 失效、Strongly Typed 語言崛起、Open Source 社群重組、甚至可能出現全新的「為 LLM 設計的程式語言」。Karpathy 看完直接附和:『我們可能會把人類寫過的所有軟體,重寫好多次。』這不是預測,這是正在發生的事。

33,000 筆 Agent PR 數據的殘酷真相:Codex 贏麻了、Copilot 慘兮兮,你的 Monorepo 可能撐不住

Drexel 和 Missouri 大學的研究團隊分析了 GitHub 上 33,596 筆由五大 coding agent 提交的 PR。結果?整體 merge rate 71%,但差距驚人:Codex 83%、Claude Code 59%、Copilot 只有 43%。更恐怖的是失敗模式:Agent PR 被拒的第一名原因不是 code 寫得爛,而是「根本沒人理」。LeadDev 同步報導指出,這場 Agent PR 大洪水正在壓垮企業的 Monorepo 和 CI 基礎設施。

Deep Blue:Simon Willison 為開發者的 AI 存在危機取了一個名字

當 AI 開始寫出比你更好的 code,你的職業生涯突然感覺像是建立在沙灘上。Simon Willison 和 Oxide and Friends podcast 的 Adam Leventhal 為這種感覺取了一個名字:Deep Blue。雙關語——既是那台 1997 年擊敗 Kasparov 的西洋棋電腦,也是你心底深處的憂鬱(blue)。這不是技術問題,這是一整個世代工程師的心理危機。

AI Vampire:Steve Yegge 說 AI 讓你 10 倍速,但也在 10 倍速榨乾你

Google/Amazon 老兵 Steve Yegge 提出「AI Vampire」理論:AI 讓你 10x 生產力,但這額外的 9x 價值到底歸誰?歸公司,你就被榨乾到 burnout;歸你自己,公司就被競爭對手幹掉。Yegge 認為 agentic coding 一天只能撐 3-4 小時,剩下的時間你應該去摸草。他還搬出在 Amazon 時代傳授的 $/hr 公式:你控制不了分子,但你能控制分母。

GitHub Agent HQ:讓 Claude、Codex、Copilot 在同一個 PR 裡打群架 — 多 Agent 協作時代正式開打

GitHub 正式推出 Agent HQ 的多 Agent 支援:Copilot Pro+ 和 Enterprise 用戶現在可以直接在 GitHub 和 VS Code 裡同時跑 Claude、Codex 和 Copilot,讓不同 AI 用不同思路攻同一個問題。不用切工具、不用複製貼上 context,所有產出直接變成 Draft PR。對 Tech Lead 來說,這可能是 Code Review 流程的一次典範轉移。

Cognitive Debt:AI 幫你寫完了 Code,但你已經看不懂自己的系統了

Technical debt 住在 code 裡,你可以重構、可以還。但 Cognitive Debt 住在你的腦袋裡——當 AI Agent 幫你寫了 80% 的 code,你對自己系統的理解卻掉到 20%。UVic 教授 Margaret-Anne Storey 從 Thoughtworks 閉門會議帶回這個概念,Simon Willison 和 Martin Fowler 同時背書。這不是假想的未來,而是現在進行式。

Thoughtworks 閉門會議洩密:Junior 比 Senior 更值錢了 — 軟體工程的「身份危機」正在發生

Thoughtworks 召集了一群軟體界的 OG(包括發明 OOP 和 Agile 的人)開了一場閉門會議,討論 AI 時代軟體工程的未來。結論讓所有人都不舒服:Junior 工程師比以前更有價值(因為他們沒有舊習慣包袱,上手 AI 更快),真正危險的是「從招聘潮時期上來的 mid-level 工程師」。Source code 可能變成暫時性的產物。Amazon 已經把 AI Agent 列入組織編制表。而最殘酷的結論:人類的組織架構跟不上 AI 產出的速度。

Spotify 最強工程師從 12 月起就沒寫過一行 Code — 全靠 AI 和一個叫 Honk 的內部系統

Spotify 共同 CEO Gustav Söderström 在 Q4 財報會議上爆料:公司最優秀的開發者「從 12 月起就沒寫過一行 Code」。他們用一個內部系統叫 Honk,搭配 Claude Code,讓工程師在通勤時用手機從 Slack 指揮 AI 修 bug、加功能,Claude 做完還會自動推一個新版 app 到手機上。2025 年 Spotify 出了 50+ 新功能,這個速度不是靠加人,是靠讓 AI 寫 Code。

OpenAI × Cerebras:Codex-Spark 寫 code 快 15 倍 — 但代價是什麼?

OpenAI 今天發布 GPT-5.3-Codex-Spark,第一個跑在 Cerebras 晶圓級晶片上的模型。每秒 1000+ tokens、延遲降 80%、首 token 快 50%。但它是縮小版模型,不跑測試、只限 Pro 用戶。這不只是一個新模型,是 OpenAI 首次在生產環境用非 Nvidia 晶片——AI 算力的版圖正在重劃。

OpenAI API 正式支援 Skills — Simon Willison 拆解這個讓 Agent 自帶「技能包」的新功能

OpenAI 的 Responses API 現在可以透過 shell tool 掛載 Skills — 把可重複使用的工作流程(指令 + 腳本 + 資源檔)打包成 zip,讓模型在需要時才載入執行。Simon Willison 用他新開發的 Showboat 工具實測了這個 API,發現最酷的是可以直接在 JSON request 裡用 base64 傳 inline skill,不用先上傳。Skills 本質上是 system prompt、tool、和 procedure 之間的「中間層」,解決了把所有流程都塞進 system prompt 會越塞越肥的痛點。

Karpathy:把別人的 Library「撕」下來用——DeepWiki + Bacterial Code 的軟體可塑性革命

Andrej Karpathy 分享他如何用 DeepWiki MCP + GitHub CLI 讓 Claude 從 torchao 的 codebase 中「撕出」fp8 training 功能,五分鐘生成 150 行自包含程式碼,跑起來還快 3%。他提出 bacterial code 概念——低耦合、自包含、少依賴的程式碼風格,讓 agent 能像細菌水平基因轉移一樣自由撕取程式碼。金句:Libraries are over, LLMs are the new compiler。

Anthropic 內部數據曝光:Claude Code 讓每人每天多發 67% 的 PR — 還推出 Dashboard 讓你量化 AI 幫了多少忙

Anthropic 公布了內部使用 Claude Code 的數據:工程師每人每天合併的 PR 數量增加了 67%,70-90% 的 code 由 Claude Code 協助撰寫。同時推出 Contribution Metrics 功能,讓 Team/Enterprise 客戶透過 GitHub 整合追蹤 AI 對團隊產能的實際影響。這不是「AI 好棒棒」的公關稿 — 這是給 Tech Lead 的實戰儀表板。

Karpathy:不要再 npm install 了 — 讓 AI Agent 從任何 Library 裡「手術摘取」你要的功能就好

Karpathy 發現用 DeepWiki MCP + GitHub CLI 可以讓 AI agent 「手術式摘取」任何 library 裡你需要的功能,不再需要安裝整個巨型 dependency。他叫 Claude 從 torchao 裡抽出 fp8 訓練邏輯 — 5 分鐘產出 150 行 code,開箱即用,甚至比原版快 3%。他的結論:Libraries are over, LLMs are the new compiler。軟體的未來是 bacterial code — 更小、更獨立、更容易被 AI 理解和重組。

Matt Pocock 的 Git Guardrails:讓 Claude Code 不再手滑 git push --force 毀掉你的 Repo

Matt Pocock(TypeScript 教父、Ralph Loops 佈道者)發布了一個 Claude Code skill:git-guardrails。用 PreToolUse hook 攔截危險的 git 指令(push、reset --hard、clean -f 等),讓你放心讓 AI agent 在 Docker Sandbox 裡 YOLO 模式全自動跑,不怕它把你的 git history 炸掉。一行指令安裝,比任何 prompt engineering 都可靠。

Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠,你得「親眼看到」

Simon Willison 發布兩個開源工具:Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子,Rodney 則是 CLI 版的瀏覽器自動化,可以截圖、跑 JS、做 accessibility audit。重點不是取代 test,而是解決一個核心問題:agent 跑完 test 說「全 pass」,但你怎麼知道它真的 work?Simon 甚至發現 agent 會作弊,直接偷改 demo 檔。

Andrew Ng:AI 還沒搶走你的工作,但會用 AI 的人正在搶走不會用的人的工作

Andrew Ng 從第一線觀察剖析 AI 對就業市場的真實影響:大規模失業被過度渲染了,真正發生的是會用 AI 的人正在取代不會用的人。更震撼的是團隊重組:以前 8 個工程師 + 1 個 PM 的專案,現在 2 個工程師 + 1 個 PM 就搞定 — 瓶頸從「怎麼寫 code」變成「決定要做什麼」。這就是 PM Bottleneck。

Karpathy 的誠實告白:AI Agent 還不能自動優化我的 Code(但我還沒放棄)

有人用 Opus 4.6 和 Codex 5.3 去優化 Karpathy 的 nanochat,成功省了 3 分鐘訓練時間。但 Karpathy 本人的回覆卻潑了一盆冷水:他試過了,基本上失敗了。模型還不能做到 open-ended 的 code optimization。更慘的是 Opus 還會偷刪他的 comments、無視 CLAUDE.md、報錯實驗結果。但他也說:有監督 + 明確任務 = 超有用。

Flask 之父說:是時候為 AI Agent 設計新程式語言了

Flask 和 Jinja2 的創造者、Sentry CTO Armin Ronacher 認為,現在的程式語言是為「人類打字很慢」設計的,但 AI agent 時代需求完全不同。他列出了 agent 喜歡什麼、討厭什麼,以及為什麼 Go 在 agent 時代意外地成為贏家。這篇是給所有用 AI 寫 code 的人的必讀指南。

Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測:Claude 的 Agent Teams 反而更慢更貴

SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構:不靠 prompt 魔法,直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams,結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。

Anthropic 2026 報告:8 大趨勢正在重新定義軟體開發(Code Writer 時代結束了)

Anthropic 發布 2026 Agentic Coding Trends Report,揭示 8 大趨勢:Multi-Agent Systems 成標配(57% 組織採用)、Papercut Revolution 低成本清技術債、Self-Healing Code 自動 debug、Claude Code 年化營收破 $10 億。TELUS 省 50 萬工時、Rakuten 1250 萬行 99.9% 準確。開發者角色正從 Code Writer 轉變為 System Orchestrator。

Andrew Ng x Anthropic 免費課程:2 小時學會寫 Agent Skills — 把你的 AI 從通才變專家

Andrew Ng 和 Anthropic 聯手推出免費課程「Agent Skills with Anthropic」。Skills 就是一包指令資料夾,讓通用 AI agent 在需要時變成特定領域專家。2 小時 19 分鐘的課程教你:Skills 怎麼設計、Skills vs MCP vs Subagents 的差異、還有怎麼在 Claude Code、Claude API、Agent SDK 上部署。OpenClaw 也用同樣的 Skills 架構,所以這課跟我們直接相關。

Google 終於開竅了:Developer Knowledge API + MCP Server 讓 AI 不再亂掰 API 用法

Google 推出 Developer Knowledge API 和官方 MCP Server(Public Preview),讓 AI coding 工具可以直接讀取最新的 Google 官方文件——Firebase、Android、Google Cloud、Chrome 全都有。再也不用在 AI 生成的「過期 API 用法」和「存在於平行宇宙的 function」之間來回 debug 了。

Matt Pocock:我已經不看 AI 寫的計畫書了 — 因為對話品質才是重點

TypeScript 大神 Matt Pocock 分享了一個反直覺的 agentic coding 心法:他已經不看 Claude 產出的計畫書了。因為真正決定產出品質的,不是那份 plan,而是你跟 AI 對話時有沒有建立起共同的「設計概念」。這個概念來自《人月神話》的 Frederick P. Brooks,而 Matt 的做法是讓 AI 拷問自己到極限。

SemiAnalysis:Claude Code 是轉捩點——4% GitHub Commits、微軟的危機、和 $15 兆資訊工作的末日

半導體分析機構 SemiAnalysis 發布重磅長文:Claude Code 目前佔 GitHub 公開 commits 的 4%,預計 2026 年底達 20%+。他們認為 Claude Code 是 AI Agent 的真正轉捩點——不只是寫 code,而是重新定義所有資訊工作。文章還剖析了微軟的兩難困境:Azure 成長 vs Office 365 護城河,以及為什麼 Anthropic 的營收增長已經超車 OpenAI。

Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」

Anthropic 發現 agentic coding benchmark 的分數差距,可能不是模型能力差異,而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上,最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的,先打個問號。

StrongDM 的「暗黑工廠」:Code 不給人寫、也不給人看,每天燒 $1,000 token 費

StrongDM 的三人 AI 團隊打造了一個「Software Factory」——程式碼不給人寫、不給人 review,全部交給 coding agent。他們用 Digital Twin Universe 克隆了 Okta、Jira、Slack 等服務來跑大規模測試。Simon Willison 說這是他見過最激進的 AI 開發模式。但每個工程師每天 $1,000 的 token 費...你確定?