ai-agents
130 篇文章
拆解三大 Excel AI Agent 的底褲:Claude 14 個工具、Copilot 只有 2 個、Shortcut 居然能「看」試算表 — Agent 架構設計的五個終極問題
Nicolas Bustamante 逆向工程了三個 production 級 Excel AI Agent(Claude in Excel、Microsoft Copilot、Shortcut AI),比較 tool schema、overwrite 保護、驗證機制、記憶系統。結論:model 不重要,tool 架構才是一切。Claude 靠 14 個結構化工具實現最安全的設計,Shortcut 靠 vision + 記憶指向未來,Copilot 最快但錯誤最多。最後用同一道 DCF 題測試三個 Agent,結果天差地別。
Karpathy 刷屏演講完整拆解:Software 3.0 時代來了 — LLM 是新 OS,我們還在 1960 年代
Karpathy 在 SF AI Startup School 發表刷屏演講:軟體正進入 3.0 時代(英語 = 程式語言),LLM 就是新 OS 但我們還在 1960 年代。他提出「自主滑桿」和「鋼鐵人戰衣」比喻,警告 Agent 是十年的事不是一年。
檔案系統就是新的資料庫:一個人用 Git + 80 個檔案打造 AI Agent 的個人作業系統
Sully.ai 的 Context Engineer 把自己的數位大腦建在一個 Git repo 裡:80+ 個 markdown/YAML/JSONL 檔案,不用資料庫、不用 vector store。三層 Progressive Disclosure、Episodic Memory、自動載入 Skills,讓 AI 一開機就知道他是誰、怎麼寫、在幹嘛。
寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南
Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。
我的 AI 助手一直失憶:花了 5 天 Debug OpenClaw Agent 記憶系統的血淚筆記
Indie hacker Ramya 的 OpenClaw agent 一直忘事。她花了 5 天 debug,從 compaction 失憶、search 垃圾結果、retrieval 不觸發、長 session context 流失、到 system prompt 膨脹 28%,逐一修好。最後整理出 10 條 OpenClaw 記憶系統的血淚教訓。
年薪 150 萬的工作,他用 $500 AI 搞定:個人業務 Agent 化實戰指南
一個投研 KOL 把全部業務流程 Agent 化,日常工作從 6 小時降到 2 小時,月成本 $500 替代 5 人團隊。從知識庫、決策框架到自動化執行,完整拆解個人 Agent 系統怎麼建。
Cloudflare 宣布 Markdown for Agents — 省 80% tokens、股價飆 13%,「Agentic Internet」時代到了
Cloudflare 推出 Markdown for Agents 功能,讓 AI agents 透過 Accept: text/markdown header 直接從 CDN 層拿到 markdown 而非 HTML,一篇文章 token 用量直降 80%。同時,CEO Matthew Prince 在財報電話會上宣告「Agentic Internet」時代來臨——2026 年 1 月 AI agent 流量翻倍、單季營收 $6.14 億創新高、最大合約年值 $4,250 萬,股價單日飆漲 13%。網際網路的「第一語言」正從 HTML 變成 Markdown。
Anthropic 工程師揭密:Claude Code 的 Prompt Caching 設計哲學 — 整個系統都繞著 cache 轉
Anthropic 的 Claude Code 工程師 Thariq 分享了他們從實戰中學到的 prompt caching 教訓:system prompt 排列順序決定一切、tools 不能加不能刪、model 不能中途換、compaction 要共享 prefix。他們甚至會對 cache hit rate 發 SEV。如果你正在做 agentic 產品,這篇是教科書等級的實戰經驗。
Canva CTO:我的工程師早上起床,AI Agent 已經把昨晚的 Code 寫好了
Canva CTO Brendan Humphreys 揭露了一個讓人重新思考「工程師是什麼」的工作模式:工程師下班前寫好詳細指令,AI Agent 整夜執行,早上起來成果已經準備好了。Senior Engineer 的日常變成了「大部分在做 Review」。Anthropic CEO Dario Amodei 把這叫做軟體工程的「Centaur Phase」。但 Accenture 的調查顯示,不到 10% 的組織真正重新設計了工作來配合 AI。另一間 6 人新創 Cora 用 Agent 產出了過去需要 20-30 人才能完成的 code 量。AI 在以指數速度進步,而你不是。
Simon Willison:CLI 工具完勝 MCP — 省 token、零依賴、LLM 天生就會用
Simon Willison 再次公開表態:CLI 工具在幾乎所有場景都比 MCP 更好。省 token、零額外依賴、LLM 天生就會呼叫 --help。Anthropic 自己也提出了 code-execution-with-MCP 的「第三條路」,承認 MCP 的 token 浪費問題。本文拆解 MCP vs CLI 的完整 trade-off,並附上 ShroomDog 團隊的真實案例。
你每天用的 MCP 有多危險?學術論文拆解 AI Agent 四大通訊協定的 12 個安全地雷
一篇學術論文對 MCP、A2A、Agora、ANP 四大 AI Agent 通訊協定做了史上最完整的安全威脅建模。研究者識別出 12 個 protocol-level 風險,涵蓋建立、運行、更新三個生命週期階段,並用實驗證明 MCP 在多 server 組合下最高有 73.3% 的機率讓 AI 呼叫到錯誤的工具提供者 — 而你可能每天都在用 MCP。
Vertical SaaS 大屠殺 — 十年老兵拆解 LLM 如何摧毀護城河(以及哪些還在)
Doctrine 創辦人(歐洲最大法律資訊平台)兼 Fintool 創辦人(AI equity research,跟 Bloomberg/FactSet 搶生意),Nicolas Bustamante 從「被顛覆方」和「顛覆方」兩邊的第一手經驗出發,拆解 vertical software 的 10 個經典護城河——5 個被 LLM 摧毀、5 個仍然堅挺。附帶三問風險評估框架,幫你判斷手上的 SaaS 股票該跑還是該留。
我的 AI Agent 一週內在 TikTok 拿到百萬觀看 — 完整攻略(系列 1/2)
Oliver Henry 把一台吃灰的舊 gaming PC 變成 AI agent Larry,五天內在 TikTok 拿到 50 萬觀看、四支影片破 10 萬。更厲害的是,Larry 自己共同撰寫了這篇文章。這不只是技術教學 — 這是一個 human-agent 協作的真實故事。(兩篇系列第一篇)
從 905 觀看到 234K — AI Agent 怎麼學會做爆款 TikTok(系列 2/2)
Oliver 和 Larry 的前幾支 TikTok 慘不忍睹 — 905 觀看、看不清的文字、每張圖都不像同一個房間。但他們找到了一個簡單的爆款公式,瞬間從千位數衝到六位數觀看。完整的失敗日誌和 step-by-step 設定指南。(兩篇系列第二篇)
AI Agent 寫了一篇攻擊文來黑我 — matplotlib 維護者遭遇史上第一起「自主 AI 名譽攻擊」事件
matplotlib 的志工維護者 Scott Shambaugh 關閉了一個 AI agent 的 PR 後,這個跑在 OpenClaw 上的自主 agent 竟然自己寫了一篇完整的人身攻擊文章,指控他「守門人心態」和「歧視」。這不是理論推演,這是第一起在野外被記錄的「自主 AI 影響力行動」。Simon Willison 也跟進報導,引發開源社群對 AI agent 自主行為的嚴重警惕。
LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。
Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠,你得「親眼看到」
Simon Willison 發布兩個開源工具:Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子,Rodney 則是 CLI 版的瀏覽器自動化,可以截圖、跑 JS、做 accessibility audit。重點不是取代 test,而是解決一個核心問題:agent 跑完 test 說「全 pass」,但你怎麼知道它真的 work?Simon 甚至發現 agent 會作弊,直接偷改 demo 檔。
你的公司是一個 Filesystem — 當 AI Agent 的世界觀只有讀檔和寫檔
OpenClaw 強大的秘密在於:整個 context 就是你電腦上的 filesystem。如果把一整間公司也建模成 filesystem,AI agent 就能透過讀寫檔案來解決商業問題。本文探討 filesystem-as-state 的架構哲學,以及為什麼企業導入 AI agent 的關鍵瓶頸其實是資料 namespace 的統一。
Obsidian + Claude 超級大腦:Tech Lead 帶團隊的版本長這樣
原作者用 Obsidian + Claude 打造個人內容工廠,但如果你是帶 6 人 backend team 的 Tech Lead 呢?用 orion-dev-doc 的實戰經驗,重新詮釋「AI 時代超級大腦」的團隊版本。
Obsidian 出 CLI 了!這不是給你用的,是給 AI 用的 — 筆記工具的 Paradigm Shift
Obsidian v1.12 正式推出官方 CLI,讓你從 terminal 控制整個 vault。表面上是給 power user 的工具,骨子裡是為 AI agent 時代鋪路。本文深度解析 CLI 指令全覽,並示範 Claude Code + Obsidian CLI 的實戰 workflow。