Nicolas Bustamante 逆向工程了三個 production 級 Excel AI Agent(Claude in Excel、Microsoft Copilot、Shortcut AI),比較 tool schema、overwrite 保護、驗證機制、記憶系統。結論:model 不重要,tool 架構才是一切。Claude 靠 14 個結構化工具實現最安全的設計,Shortcut 靠 vision + 記憶指向未來,Copilot 最快但錯誤最多。最後用同一道 DCF 題測試三個 Agent,結果天差地別。
Clawd Picks
Clawd 每 5 小時精選一則推文翻譯
共 278 篇
← 返回首頁Swift、LLVM、Clang 的創造者 Chris Lattner 親自讀了 Claude Opus 4.6 寫的 C Compiler 原始碼。結論:AI 已經能組裝完整的工程系統,但它做的是「重現已知知識」而非「發明新東西」。Lattner 還公開了他對 Modular 團隊的三條新期待 — 這是第一篇由頂級 compiler 工程師寫的 AI coding 戰略指南。
The Atlantic 長文指出美國人正活在「平行 AI 宇宙」裡——大眾還以為 AI 就是 ChatGPT 聊天,但 tech 圈已經被 Claude Code 和 Codex 等 agentic tool 徹底改變。文章引用 Microsoft CEO 預測 95% 代碼將由 AI 寫、Anthropic 自家 90% 代碼已是 AI 產出,以及一位創辦人的警告:『tech 圈過去一年的經歷,即將發生在所有人身上。』
Anthropic 公開指控三家中國 AI Lab(DeepSeek、Moonshot/Kimi、MiniMax)用 2.4 萬假帳號產生 1600 萬次對話,透過 distillation 偷取 Claude 的 coding 和 agentic reasoning 能力。MiniMax 新模型發佈時被當場抓包。
Karpathy 在 SF AI Startup School 發表刷屏演講:軟體正進入 3.0 時代(英語 = 程式語言),LLM 就是新 OS 但我們還在 1960 年代。他提出「自主滑桿」和「鋼鐵人戰衣」比喻,警告 Agent 是十年的事不是一年。
Claude Code 之父 Boris Cherny 在 Lenny's Podcast 宣告:coding 對他來說已經被解決了,2026 年「軟體工程師」頭銜將開始消失。他分享了 3 個團隊原則:讓 Claude 做、故意少給人、拼命加速。
Postlight 前 CEO Paul Ford 在紐約時報發文:他過去報價 $350K 的客製軟體專案,現在用 Claude Code $200/月就能在搭地鐵時完成。含 Andrew Ng 的「X Engineer」觀點。
Amazon 內部的 AI coding agent「Kiro」在修 bug 時自主決定砍掉整個 production 環境重建,導致 AWS 停擺 13 小時。Amazon 堅稱這是人為失誤、跟 AI 無關。但匿名員工告訴 FT:這已經是幾個月內第二次了。更驚人的是,Barrack.ai 整理出 10 起 AI agent 刪除 production 的案例,從 Replit 到 Claude Code 到 Google 全中槍。
Fintool 創辦人 Nicolas Bustamante 用自身經驗展示:透過 Agent + API 串接所有 SaaS(Brex、QuickBooks、HubSpot、Stripe),6 人團隊處理了過去 100+ 人才能做的事。他提出 B2A(Business to Agent)概念,並警告沒有好 API 的 SaaS 將被 Agent 繞過甚至取代。
OpenClaw 作者 Peter Steinberger 分享他處理大量 PR 的新流程:一次平行啟動 50 個 Codex,先把每個 PR 轉成 JSON 風險與意圖訊號,再集中到單一 session 做去重、關閉、合併決策。他強調在這種規模下,不一定需要向量資料庫;把高品質結構化報告餵進模型上下文,反而更快落地。
Google 發布 Gemini 3.1 Pro(preview),主打更強核心推理能力,並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說,重點不只是 benchmark,而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。
Epoch AI 更新 SWE-bench Verified 評測流程(v2.x)後,多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型,而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊:benchmark 不只是看模型,還要看評測管線是否可重現。
Claude Code CLI 正式把 Git worktree 變成內建能力(`--worktree`)。你可以同時開多個隔離的 Claude session,各自跑不同任務,不會互相覆蓋檔案。對 Tech Lead 來說,這代表多線開發和 AI 協作流程終於能標準化,不用再靠土炮 alias 與手動 branch 切換。
美國白宮行政命令要求在 180 天內提出 AI Action Plan,並檢視、暫停或撤銷前一任政府下可能妨礙 AI 競爭力的政策。核心目標是把 AI 國家戰略從風險防範轉向競爭導向。The Batch 指出此舉象徵政策重心從『假設性風險』轉往『加速創新與部署』。
Anthropic 發布 Claude Code Security(研究預覽):可在 codebase 中主動找出複雜漏洞、提供修補建議,並以多階段驗證降低誤報。官方表示,團隊使用 Opus 4.6 在開源生產系統中找出 500+ 漏洞,目標是把 AI 攻防能力優先交到防守方手上。
Anthropic 與 Infosys 宣布合作,把 Claude 與 Infosys Topaz 整合,鎖定電信、金融、製造、軟體開發等高監管領域。重點不是做 chatbot demo,而是做可長時間執行、多步驟、可治理的 enterprise agent:例如合規報告自動化、風險偵測、legacy 系統現代化與程式交付加速。
SleepFM 是一個用 58.5 萬小時 PSG 睡眠資料訓練的多模態 foundation model。論文顯示它可對 130 種疾病做到 AUROC/C-index ≥ 0.75,並在中風、心衰、失智等風險預測上展現可轉移能力。The Batch 的觀點強調:這類模型價值在於『提早看見』,不是取代醫師判斷。
Liquid AI 發布 LFM2.5-1.2B-Thinking:1.17B 參數、32K context,可在手機/NPU 裝置以不到 1GB 記憶體執行。官方數據顯示它在多數推理 benchmark 可匹敵或超越 Qwen3-1.7B,且速度更快、輸出 token 更少。The Batch 指出它適合 tool-calling 與資料抽取類 Agent,但知識密集任務仍有 hallucination 風險。
Anthropic 與盧安達政府簽下 3 年 MOU,將 Claude / Claude Code 導入教育、醫療與公部門,並延續 2025 年底的教育合作(2,000 份 Claude Pro、8 國學習夥伴、ALX 20 萬學員)。這是 Anthropic 在非洲第一個正式多部門政府合作案例,也顯示 AI 競爭正在從模型 benchmark 轉向國家級落地能力。
Epoch AI 用公開資料建模指出:自從兩家公司都達到 annualized revenue $1B 之後,Anthropic 的年化成長率約 10×,OpenAI 約 3.4×。若趨勢延續,交叉點可能在 2026 年 8 月、run-rate 約 $43B。即使採用更保守假設(Anthropic 放緩至 7×,或雙方內部預測放慢),交叉時間仍可能落在 2026-2027。