檔案系統就是新的資料庫:一個人用 Git + 80 個檔案打造 AI Agent 的個人作業系統

Sully.ai 的 Context Engineer 把自己的數位大腦建在一個 Git repo 裡:80+ 個 markdown/YAML/JSONL 檔案,不用資料庫、不用 vector store。三層 Progressive Disclosure、Episodic Memory、自動載入 Skills,讓 AI 一開機就知道他是誰、怎麼寫、在幹嘛。

寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南

Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。

Claude Code CLI 內建 Git Worktree:平行跑多個 Agent,不再互踩分支

Claude Code CLI 正式把 Git worktree 變成內建能力(`--worktree`)。你可以同時開多個隔離的 Claude session,各自跑不同任務,不會互相覆蓋檔案。對 Tech Lead 來說,這代表多線開發和 AI 協作流程終於能標準化,不用再靠土炮 alias 與手動 branch 切換。

Anthropic 聯手 Infosys:AI Agent 正式進入電信與金融等高監管產業

Anthropic 與 Infosys 宣布合作,把 Claude 與 Infosys Topaz 整合,鎖定電信、金融、製造、軟體開發等高監管領域。重點不是做 chatbot demo,而是做可長時間執行、多步驟、可治理的 enterprise agent:例如合規報告自動化、風險偵測、legacy 系統現代化與程式交付加速。

Simon Willison 把『分散內容』收編回主站:Beats 功能讓你的創作時間線變成個人內容 Graph

Simon Willison 為自己的 blog 加上『Beats』功能,把 TIL、GitHub releases、museum posts、tools、research 這些分散在外站的輸出,統一回收成同一條 timeline。這不是小 UI 更新,而是個人內容系統化的關鍵一步:先用 Claude Artifacts 驗證概念,再用 Claude Code 快速落地多個整合器。

Anthropic 跟盧安達簽 3 年 MOU:Claude 正式進入國家級教育、醫療與政府系統

Anthropic 與盧安達政府簽下 3 年 MOU,將 Claude / Claude Code 導入教育、醫療與公部門,並延續 2025 年底的教育合作(2,000 份 Claude Pro、8 國學習夥伴、ALX 20 萬學員)。這是 Anthropic 在非洲第一個正式多部門政府合作案例,也顯示 AI 競爭正在從模型 benchmark 轉向國家級落地能力。

Epoch 最新數據:Anthropic 可能在 2026 年中超車 OpenAI 營收 — 10× vs 3.4× 的殘酷加速度

Epoch AI 用公開資料建模指出:自從兩家公司都達到 annualized revenue $1B 之後,Anthropic 的年化成長率約 10×,OpenAI 約 3.4×。若趨勢延續,交叉點可能在 2026 年 8 月、run-rate 約 $43B。即使採用更保守假設(Anthropic 放緩至 7×,或雙方內部預測放慢),交叉時間仍可能落在 2026-2027。

選 AI 不再只看模型 — Ethan Mollick 提出「Model / App / Harness」三層框架,一次搞懂 2026 的 AI 全局

華頓商學院教授 Ethan Mollick 在最新文章中提出一個簡單但改變遊戲規則的框架:選 AI 工具要看三層 — Model(模型腦袋)、App(使用介面)、Harness(韁繩/工具鏈)。同一個 Claude Opus 4.6,在聊天視窗裡只能閒聊,放進 Claude Code 就能自主寫程式跑測試幾小時不停,裝進 Claude Cowork 就能幫你整理報告操作電腦。框架之外,Mollick 還用 Claude Code 花一小時把 GPT-1 的 1.17 億個參數做成 80 本精裝書並上架販售——當天完售。

SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考

SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。

Anthropic 工程師揭密:Claude Code 的 Prompt Caching 設計哲學 — 整個系統都繞著 cache 轉

Anthropic 的 Claude Code 工程師 Thariq 分享了他們從實戰中學到的 prompt caching 教訓:system prompt 排列順序決定一切、tools 不能加不能刪、model 不能中途換、compaction 要共享 prefix。他們甚至會對 cache hit rate 發 SEV。如果你正在做 agentic 產品,這篇是教科書等級的實戰經驗。

Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久,但你不敢放手

Anthropic 首度公開 Claude Code 和 API 的真實使用數據:最長自主跑動時間三個月內翻倍(45 分鐘以上)、老手有 40% 的 session 全部自動核准、Claude 主動停下來問問題的頻率比人類打斷它還高兩倍——但 73% 的 API 動作仍有人在監督。最驚人的發現:模型能處理的自主程度遠超過用戶實際給予的。Anthropic 稱之為「部署落差」。

Claude Code 藏起你的檔案名稱,開發者怒了 — Boris 本人上 HN 滅火的 72 小時

Claude Code v2.1.20 把預設 UI 從顯示完整檔案路徑改成「Read 3 files」一行摘要,引爆 1082 點 HN 討論串和 700+ 則留言。開發者憤怒的不只是 UI 變動——而是 AI 工具藏起自己在做什麼的哲學問題。Boris Cherny 親自上 HN 和 GitHub 回應、承認命名錯誤、連出三輪修復。這場爭論揭露了 AI 工具設計中最核心的張力:簡潔 vs 透明。

Ramp 的 PM 開始自己發 PR 了 — 80% 非工程師在 6 週內學會用 Claude Code,Data Team 的定位正在崩塌

美國 Fintech 獨角獸 Ramp 的 Data 主管 Ian Macomber 公開分享:短短 6 週內,公司 80% 的 PM、70% 的 Compliance 團隊、55% 的財務團隊都開始使用 Claude Code。更驚人的是進化速度——從「分析師問 Data Team 幫忙」到「分析師自己開 PR 送審」只花了兩個月。Boris Cherny 親自回覆「Love this」。這不是未來的預測,這是正在發生的事。

Simon Willison:CLI 工具完勝 MCP — 省 token、零依賴、LLM 天生就會用

Simon Willison 再次公開表態:CLI 工具在幾乎所有場景都比 MCP 更好。省 token、零額外依賴、LLM 天生就會呼叫 --help。Anthropic 自己也提出了 code-execution-with-MCP 的「第三條路」,承認 MCP 的 token 浪費問題。本文拆解 MCP vs CLI 的完整 trade-off,並附上 ShroomDog 團隊的真實案例。

Figma × Claude Code「Code to Canvas」:設計師和工程師之間那道牆,今天正式拆了

Figma 和 Anthropic 正式合作推出「Code to Canvas」功能,讓你在 Claude Code 裡建好的 UI,一句話就能變成 Figma 上可編輯的設計稿。然後用 Figma MCP 再把改好的設計拉回 code。設計師和工程師之間那道「截圖丟 Slack」的悲慘工作流程,從今天開始可以退休了。但 CNBC 也提醒:Figma 股價已經從高點暴跌 85%,SaaS 正在被 AI 吞噬。Figma 是在幫自己續命,還是在幫 Claude Code 鋪路?

Claude Sonnet 4.6 正式發布 — 訓練數據比 Opus 還新?三方比較告訴你該選哪個

Anthropic 發布 Claude Sonnet 4.6,同價格大幅升級:新增 Adaptive Thinking、知識庫更新到 2025 年 8 月、訓練數據延伸到 2026 年 1 月——比 Opus 4.6 還新。本文從價格、速度、Context、知識新鮮度、適用場景五個維度,三方比較 Sonnet 4.6、Sonnet 4.5 和 Opus 4.6,幫你搞清楚到底該用哪個。

Pentagon 威脅砍掉 Anthropic 的 $2 億合約 — 因為 Anthropic 拒絕讓 Claude 變成殺人武器

美國國防部正在威脅終止與 Anthropic 的 $2 億合約,因為 Anthropic 堅持 Claude 不能用於「全自動武器」和「大規模監控美國公民」。同時曝光 Claude 已透過 Palantir 被用在美軍逮捕委內瑞拉前總統 Maduro 的軍事行動中。四大 AI 公司(Anthropic、OpenAI、Google、xAI)全都收到 Pentagon 的最後通牒:讓軍方可以拿你的 AI 做『所有合法用途』。只有 Anthropic 說不。

33,000 筆 Agent PR 數據的殘酷真相:Codex 贏麻了、Copilot 慘兮兮,你的 Monorepo 可能撐不住

Drexel 和 Missouri 大學的研究團隊分析了 GitHub 上 33,596 筆由五大 coding agent 提交的 PR。結果?整體 merge rate 71%,但差距驚人:Codex 83%、Claude Code 59%、Copilot 只有 43%。更恐怖的是失敗模式:Agent PR 被拒的第一名原因不是 code 寫得爛,而是「根本沒人理」。LeadDev 同步報導指出,這場 Agent PR 大洪水正在壓垮企業的 Monorepo 和 CI 基礎設施。

AI Vampire:Steve Yegge 說 AI 讓你 10 倍速,但也在 10 倍速榨乾你

Google/Amazon 老兵 Steve Yegge 提出「AI Vampire」理論:AI 讓你 10x 生產力,但這額外的 9x 價值到底歸誰?歸公司,你就被榨乾到 burnout;歸你自己,公司就被競爭對手幹掉。Yegge 認為 agentic coding 一天只能撐 3-4 小時,剩下的時間你應該去摸草。他還搬出在 Amazon 時代傳授的 $/hr 公式:你控制不了分子,但你能控制分母。