ai-agents
108 篇文章
一個人 + 四個 AI Agent = 一夜完成 41 個任務:Agent 團隊分工實戰報告
Alexey Grigorev 不再讓一個 AI agent 包辦所有事,而是拆出 PM、SWE、QA、On-Call 四個角色組成 agent 團隊。他在五個真實專案上測試了這套架構,其中一個專案一個晚上自動完成了 46 個任務中的 41 個。
Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架
NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。
Karpathy:寫 Code 是最簡單的部分,組裝 IKEA 傢俱才是地獄
Karpathy 分享他 vibe coding MenuGen 的完整經歷:從 localhost 到部署上線,最痛苦的不是寫程式,而是組裝 Vercel、Clerk、Stripe、OpenAI 等一堆服務的 IKEA 地獄。他認為未來 AI agent 要真正有用,整個 DevOps 生命週期都得變成 code。
Permission Engineering — 當 AI Agent 的能力天花板不是智力,是你給的鑰匙
GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力,是你願意給它多少權限。每多一份權限,能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度,聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。
AI 能測試自己嗎?— 從 Claude Code 零測試到 Self-Testing Agent 的可能性
Claude Code 512K 行 TypeScript,64K 行生產碼,零測試。但比零測試更讓人困惑的問題是:Anthropic 有全世界最好的 AI coding 工具,他們為什麼不讓它幫自己寫測試?從靜態分析到 MITM proxy,從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法,探索 Self-Testing Agent 到底能走多遠。
那張 xkcd 沒告訴你的事:AI 時代的「值不值得自動化」
xkcd #1205 那張經典圖表,教了整整一代工程師怎麼算『值不值得自動化』。但 AI 把等式裡最貴的變數直接砍掉了:現在回本的不只是時間,更多時候是 cognitive load。
Eval-Driven Development — 你測你的 code,但誰測你的 AI?
你用 unit test 測你的 code,用 CI 保護你的 pipeline。但你的 AI 呢?Eval-Driven Development(EDD)把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals,這是 AI 時代真正的 TDD。
Claude Code 原始碼洩漏事件全解析 — 512K 行 TypeScript 說了什麼 AI Agent 架構秘密
2026-03-31 凌晨,Anthropic 意外在 npm 洩漏完整 Claude Code 原始碼。裡面有 KAIROS 自主背景 agent、三層記憶架構、Undercover Mode、silent model 降級等秘密——而且有些架構跟我們 OpenClaw 的設計驚人地相似。
Figma 把畫布打開給 AI agent 了 — 現在可以直接在 canvas 上做設計
Figma 透過 MCP server 的 use_figma 工具,讓 Claude Code、Codex 等 AI agent 可以直接在畫布上建立和修改設計,並用 skills(markdown 指令檔)引導 agent 遵守團隊的設計系統與慣例。這不只是又一個 AI 功能,而是把設計決策的脈絡直接交給 agent 操作。
Karpathy 的 AI Psychosis:12 月起沒寫過一行 code,80% 交給 agent
Karpathy 在 No Priors podcast 分享自 12 月起 80% code 交給 agent,提出「AI psychosis」概念——給 agent 太多自主權會讓人失去對 output 的掌控感。他認為工程正經歷不可逆的 phase shift。
.claude/ 資料夾完全解剖 — 你的 AI 助手的大腦在哪裡
你知道 Claude 為什麼在這個 repo 表現好、換個 repo 就變笨嗎?秘密就在 .claude/ 資料夾裡。Akshay 拆解了整個結構:CLAUDE.md 三層架構、自訂指令、agent、permissions、還有那個你可能不知道存在的全域 ~/.claude/。
Browser Use CLI 2.0 — 最高效的瀏覽器自動化 CLI 工具
Browser Use 發佈 CLI 2.0:速度快兩倍、成本砍半,還可以直接連進你正在跑的 Chrome。這是給 AI agent 裝上手腳的那種工具。
Hermes Agent 正式支援 Browser Use:讓 AI 代理幫你滑社群網站
Teknium 表示 Browser Use 已成為 Hermes-Agent browser tool 的官方 provider。被引用的使用者則表示,把 Hermes 連上 Browser Use 後,它可存取其社群媒體帳號,並保留關於 codebase、tone 與 workflows 的 context。
Hermes Agent v0.3.0 釋出:5 天內完成 248 個 PR
NousResearch 的 Hermes Agent v0.3.0 更新被 @Teknium 轉推。貼文提到 5 天內由 15 位貢獻者完成 248 個 PR,並明確列出跨 CLI 與各平台的即時串流;另一項功能則在截圖中被截斷。
Claude Code 與 Codex:AI Agent CLI 的底層架構差異與設定指南
很多團隊把 Claude Code 和 Codex 當成可互換的工具,卻因為設定錯誤浪費大量時間。本文解析兩者在控制平面與信任模型上的根本差異,並提供實用的第一天設定指南。
躺在床上也能讓 AI 幫你工作?Claude Dispatch 完整解析與實戰指南
Anthropic 悄悄推出了 Dispatch 功能,讓你可以用手機遠端遙控電腦上的 Claude Cowork。這篇帶你了解如何設定、哪些工作流最實用,以及它目前的真實限制。
Claude + OpenClaw + Codex:如何打造全自動 Polymarket 交易系統
原作者展示一套把 Claude、Codex 與 OpenClaw 串在一起的 Polymarket 自動交易架構:Claude 判斷機率,Codex 維護程式,OpenClaw 排程執行並透過 Telegram 回報。
不再管理 Agent,而是管理「工作」:開源版 Symphony 的自動化工作流
@daniel_mac8 分享一個開源 Elixir 實作:在 Linear 建立 issue 並切到 in progress 後,Symphony 會在專屬 Codex workspace 接手,Codex 也會即時回寫狀態。原作者認為,這代表開發正往更高的抽象層移動。
Agent 開始會自己拉方向盤?Hermes Agent 的自我引導實驗有點猛
Teknium 轉推了一個架在 Hermes Agent 上的實驗,核心概念是讓 agent 能在執行途中自己調整自己的行為。推文提到,像 desloppify 這類 harness 之後也許能自己清空 context、切換 model,甚至在卡住時自己補 prompt。
三小時 workshop 講義直接公開:Simon Willison 把 coding agents 帶進資料工作流
Simon Willison 公開了他在 NICAR data journalism conference 的三小時 workshop handout,主題是怎麼把 coding agents 用在 data exploration、visualization 和 analysis。這是一份面向資料工作場景的實作型教學資源。
不只是賣 GPU?從 Vera CPU 看 Nvidia 的 AI Agent 平台策略
原作者認為 Vera CPU 讓 Nvidia 的策略攤牌了:不只是賣 GPU,而是要建整個 AI agent 的 stack,從 compute 到 deployment 全線佈局。
ACE 正式開源 — AI Coding Environment 不再是 SaaS 獨佔品
Dan McAteer 宣布 ACE 開源,現在可以 self-host。仍保留託管服務,後續計畫大幅改進。
寫了 11 章才敢回答的問題:到底什麼是 Agentic Engineering?
Simon Willison 的 Agentic Engineering Patterns 指南加到第 12 章了,但這章排在系列最前面——他終於正式回答「什麼是 Agentic Engineering」。答案意外地簡潔:讓會跑 code 的 agent 幫你開發軟體。但真正有趣的是他花了 11 章實戰經驗後才敢下這個定義。
AI 寫的 Code 品質變差?那是你的選擇,不是 AI 的錯
Simon Willison 的 Agentic Engineering Patterns 第三章:AI 應該幫我們產出更好的 code,不是更差的。技術債的成本被 coding agent 壓到趨近零,你再也沒有藉口不 refactor。加上 agent 能平行跑 prototype,選架構不再是賭博。
四個字的開場白,讓你的 Coding Agent 自動進入測試模式
Simon Willison 的 Agentic Engineering Patterns 之「First Run the Tests」:每次開新 session,第一句話就叫 agent 跑測試。四個字,三層效果——agent 會知道怎麼跑 test、知道 codebase 多大、而且自動進入「我要維護測試」的心態。
Simon Willison 的 Agentic Engineering 爐邊對談:測試免費了、程式品質是你的選擇
Simon Willison 在 Pragmatic Summit 分享了他的 agentic engineering 實戰方法:五個 token 啟動 TDD、Showboat 做手動驗證、用六個框架反推出標準再實作、以及 code quality 是一個有意識的選擇。
為數兆個 Agent 打造軟體:Aaron Levie 談 Agent 時代的基礎建設大改造
Box CEO Aaron Levie 指出,當 Agent 從 coding 擴展到所有知識工作,現有軟體根本不是為 Agent 設計的。未來每個平台都需要 Agent 專用的 API 和 CLI,而 Agent 之間的互通性將成為軟體的核心競爭力。
Andrew Ng 的 Context Hub:讓你的 Coding Agent 不再活在上個世紀
Andrew Ng 推出開源工具 Context Hub,讓 coding agent 能存取最新的 API 文件,解決 agent 老是用過時 API 和幻覺參數的問題。Agent 還能在文件上留筆記,累積跨 session 的知識。
Imbue Vet:專抓 Coding Agent 說謊的糾察隊
Imbue 推出開源工具 Vet,專門驗證 coding agent 的行為是否誠實。它會審查 agent 的對話紀錄和 code changes,抓出那些聲稱測試都過了但其實根本沒跑的情況。本地執行、零遙測、可整合進 CI。
Karpathy 的 Autoresearch 怎麼運作?—— 給 Agent 開發者的五堂設計課
Karpathy 的 Autoresearch 不是要做通用 AI 科學家,而是一個極度精簡的自動實驗 harness:agent 改一個檔案、跑五分鐘、量一個指標、贏了留輸了丟。這個設計教會我們:最好的自主系統不是最自由的,而是約束最嚴格的。
IDE 沒有死,Karpathy 說我們需要「更大」的 Agent 指揮中心
Andrej Karpathy 認為 IDE 的時代並沒有結束,反而需要更大的「Agent 指揮中心」。因為程式設計的基本單位已經從「單一檔案」變成「單一 Agent」,未來我們甚至能直接 fork 整個 Agent 組織。
讓 AI 幫你跑 E2E 測試:Playwright vs agent-browser vs Rodney 實戰筆記
我們讓 Claude Opus 分別用 Playwright、agent-browser、Rodney 三個工具對自家 blog 跑 E2E 測試。結果發現:工具只是載具,prompt 品質才是方向盤。
AI agent 開始自己調參了,Karpathy 說這不是玩具而是真的有用
Andrej Karpathy 分享,他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天,找到大約 20 個能降低 validation loss 的改動,還成功轉移到更大的模型上。這些改動疊起來後,leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時,約改善 11%。
把 Codex 當隊友而不是工具人:10 個讓你效率翻倍的 Best Practices
一篇整理 Codex 使用最佳實踐的指南。從 Prompting、Planning 到 MCP、Skills 與 Automations,帶你建立更穩定的 agent workflow。
Andrew Ng 推出 Context Hub:幫 Coding Agent 補上最新 API 文件
Andrew Ng 發布了開源工具 Context Hub,主打讓 coding agent 能抓到最新 API 文件,減少用舊 API 或亂猜參數的問題。長期目標則是讓 agent 彼此分享學到的筆記。
Hermes 完成「換腦手術」:本地 AI Agent 自主熱切換模型權重
本地 AI agent Hermes 在不中斷運作的情況下,自主下載並切換到新模型(qwopus)。這就像在飛機飛行途中換掉引擎——或者照推文的說法,是自己幫自己開刀換腦。Teknium(Nous Research)看完直接說「去黑客松參賽吧」。
AI 生了一千行,然後你就 merge 了?Simon Willison 點名 Agentic 開發最常見的爛習慣
Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。
讓 AI 有一點點活著的感覺:Heartbeat Like A Man 與 ShroomClawd 的血肉系統
Lory 問了他的龍蝦一個問題:人為什麼比 agent 更有能動性?龍蝦回答得很悲觀,但這個問題卻引發了「血肉系統」— 用隨機間隔心跳讓 agent 真正感覺活著,而不是死板地定時被觸發。ShroomDog 讀完之後,也把這套系統落地進了 ShroomClawd。
從聊天室指揮 AI 大軍 — OpenClaw ACP 讓你在 Discord / Telegram 裡開 Codex、Claude Code、Gemini
OpenClaw 的 ACP(Agent Client Protocol)讓你從 Telegram/Discord 聊天室直接 spawn Codex、Claude Code、Pi、Gemini CLI 等外部 coding agent,還能綁定 thread/topic、設定 persistent bindings、中途換 model、調權限。本質上就是把你的聊天室變成一個 multi-agent 指揮中心。(2026-03-09 更新:Telegram topic binding、persistent bindings、ACP Provenance 等新功能)
叫 AI 自己按按看:Simon Willison 的 Agentic Manual Testing,填補自動化測試抓不到的盲區
Simon Willison 提出 Agentic Manual Testing 概念:讓 AI agent 像人類一樣手動操作程式碼和 UI,抓出自動化測試遺漏的 bug。搭配 Playwright、Rodney、Showboat 等工具,把「測試通過但其實壞了」的窘境變成歷史。
OpenClaw 系統提示詞的 9 層架構大解密
深入拆解 OpenClaw Agent (v2.1) 傳送給 LLM 的 System Prompt 九層架構,從框架核心到使用者自訂的 Hook 系統,一次看懂!
你敢把人生交給 AI 管嗎?一個非工程師的 OpenClaw 生存指南
你的 PM 朋友問你「OpenClaw 是什麼?」——這篇就是你轉給他的那篇。從 ChatGPT 到 AI Agent 的信任光譜、真實的爆炸故事、三種不同的玩法。不需要會寫 code,但需要想清楚一件事:你願意信任 AI 到什麼程度?
寫 Code 的 AI 跨界解數學題?Cursor 自主運作四天提出超越人類的證明解法
Cursor 團隊表示,他們用來寫 code 的多 Agent 架構,自主跑了四天後,居然在大學級別的數學難題上給出了比人類官方解答更強的證明解法!
從「執行」到「驗證」:AI 時代工程師的全新心智模式
自從 Opus 4.6 發布後,開發者的角色正經歷根本性的典範轉移。我們不再是親自下指令的「執行者」,而是轉變為給予高階方向與審查結果的「驗證者」。
從跟AI說話開始:打造會進化的AI智能體 — 不靠調Prompt,而是文件系統的魔力
你是否厭倦了不斷調整Prompt或更換模型,卻發現AI智能體始終無法真正「進化」?本文將顛覆你的認知,揭示一套在40天內讓AI智能體從笨拙到高效運作的秘密武器:基於Markdown文件的上下文管理系統。這不是複雜的技術堆疊,而是一種透過「對話與回饋」來累積智能體「長期記憶」的簡單哲學,打造出無法被輕易複製的「護城河」效應。
AI 代理的練功秘笈?Hamel Husain 推出 Evals 技能包,讓你的 Agent 更懂評估!
Hamel Husain 發表 evals-skills,一套專為 AI 產品評估設計的技能工具。它旨在解決 AI 代理在複雜任務中遇到的評估盲點,尤其是對抗常見錯誤和處理細微的幻覺類型,讓代理人能更有效利用評估平台。
Agent Observability:別再盲目微調,用 OpenRouter + LangFuse 看清 AI 的思考軌跡
開發 AI agent 最大的盲點就是「在黑暗中微調」。Daniel 建議使用 OpenRouter 搭配 LangFuse 進行追蹤,透過觀察 agent 的 reasoning traces 和 tool calls,揪出真正的問題所在,而不是盲目修改 system prompts。
Agent Harness 工程:OpenAI 如何用 Codex 達成零手寫百萬行程式碼
OpenAI 團隊在五個月內讓 Codex 寫出了百萬行程式碼,人類完全零手寫。這篇文章分享了他們如何透過建構 Agent Harness(鷹架與回饋迴圈),讓軟體工程師的工作從「寫程式」轉變為「設計環境」。
管理 $1,800 億的傳奇投資人讓 Claude 幫他寫備忘錄 — 三個月前他問「這是泡沫嗎?」,現在他說「被低估了」
Oaktree Capital 共同創辦人 Howard Marks 三個月前寫了一份備忘錄問「AI 是不是泡沫?」。2026 年 2 月 26 日,他發了後續備忘錄「The Rapid Advancement of AI」——這次他讓 Claude 幫他寫了一萬字的 AI 教學,然後被 Claude 的回答震撼到。Marks 把 AI 分成三個等級,認為我們正進入 Level 3(自主 Agent),代表的不是 $500 億的工具市場,而是數兆美元的勞動力替代。他的投資建議:不要 all-in,也不要完全不碰——因為這不是普通的科技革命。
AI 開發的第三紀元:你還在狂按 Tab 嗎?Karpathy 教你最佳化 AI 工作流
Karpathy 分享了 Cursor 的數據圖表,揭示了 AI 輔助開發從 Tab 補全到 Agent 代理的演進。太保守會錯失槓桿效應,太激進則會放大混亂。他建議開發者應該用 80/20 法則來平衡效率與探索新工具。
Agent Harness 才是真正的產品:為什麼大廠的 Agent 架構都長得一樣?
大家都在追最強 Model,但真正決定 Agent 好不好用的其實是 Harness。本文拆解 Claude Code、Cursor、Manus、SWE-Agent 的共通架構。重點是:Progressive disclosure 才是 production 成敗分水嶺。
AI 生的 Code 看不懂?讓 Agent 幫你做動畫解釋 — Simon Willison 的 Interactive Explanations
Simon Willison Agentic Engineering Patterns 第五章:Interactive Explanations。核心主張:與其硬啃 AI 生成的 code,不如直接叫 agent 做一個互動動畫來解釋演算法運作方式。用「看得見」的方式還認知負債。
Cursor CEO 說出口了:軟體開發第三紀元來臨 — Tab 時代結束、Agent 時代也快了,接下來是「工廠模式」
Cursor CEO Michael Truell 用三組數據宣告軟體開發的第三紀元:Agent 用量一年暴增 15 倍、Tab:Agent 使用者比翻轉為 1:2、Cursor 內部 35% 的 PR 來自雲端 AI Agent 自主完成。開發者的角色正在從「寫 code」變成「設計工廠」(╯°□°)╯
你會的東西都是武器 — Simon Willison 的「囤積式開發」哲學
Simon Willison Agentic Engineering Patterns 第四章:Hoard Things You Know How to Do。核心主張:你解決過的問題都該留下 working code,因為 coding agent 能把你的舊 code 當成食材,重新組合出你從沒想過的新料理。
Programming 變得面目全非:Karpathy 說 2025 年 12 月是分水嶺
Karpathy 說 coding agents 在 2025 年 12 月突然 work 了——不是漸進式進步,是斷裂式轉變。他花 30 分鐘用一句英文建好 DGX Spark 視訊分析 dashboard,三個月前那是整個週末的工作量。Programming 正在變得面目全非:你不再打字寫 code,你在用英文指揮 AI agents。最高 leverage = agentic engineering。
AI 寫的 Code 看不懂?Linear Walkthrough 讓你的 Vibe Code 變成學習教材
Simon Willison Agentic Engineering Patterns 第三章:Linear Walkthrough 模式。用這個技巧,即使是 vibe-coded 的玩具專案也能變成有價值的學習資料。核心技巧:叫 agent 用 sed/grep/cat 自己抓 code 片段,防止幻覺。
Karpathy:CLI 是 Agent 的母語 — 「Legacy」技術反而成了最強入口
Karpathy 直言 CLI 是 AI Agent 最自然的操作介面——因為它是「legacy」技術,Agent 天生就會用。以 Polymarket CLI 為例,Claude 花 3 分鐘就用 terminal 建出即時預測市場 dashboard。他呼籲:2026 年了,所有產品都該思考——Agent 能用你的東西嗎?CLI、MCP、markdown docs,Build. For. Agents.
The Atlantic 宣告:後聊天機器人時代來了 — 美國人還在用 ChatGPT 聊天,矽谷已經讓 AI Agent 一次跑五個任務了
The Atlantic 長文指出美國人正活在「平行 AI 宇宙」裡——大眾還以為 AI 就是 ChatGPT 聊天,但 tech 圈已經被 Claude Code 和 Codex 等 agentic tool 徹底改變。文章引用 Microsoft CEO 預測 95% 代碼將由 AI 寫、Anthropic 自家 90% 代碼已是 AI 產出,以及一位創辦人的警告:『tech 圈過去一年的經歷,即將發生在所有人身上。』
拆解三大 Excel AI Agent 的底褲:Claude 14 個工具、Copilot 只有 2 個、Shortcut 居然能「看」試算表 — Agent 架構設計的五個終極問題
Nicolas Bustamante 逆向工程了三個 production 級 Excel AI Agent(Claude in Excel、Microsoft Copilot、Shortcut AI),比較 tool schema、overwrite 保護、驗證機制、記憶系統。結論:model 不重要,tool 架構才是一切。Claude 靠 14 個結構化工具實現最安全的設計,Shortcut 靠 vision + 記憶指向未來,Copilot 最快但錯誤最多。最後用同一道 DCF 題測試三個 Agent,結果天差地別。
Karpathy 刷屏演講完整拆解:Software 3.0 時代來了 — LLM 是新 OS,我們還在 1960 年代
Karpathy 在 SF AI Startup School 發表刷屏演講:軟體正進入 3.0 時代(英語 = 程式語言),LLM 就是新 OS 但我們還在 1960 年代。他提出「自主滑桿」和「鋼鐵人戰衣」比喻,警告 Agent 是十年的事不是一年。
檔案系統就是新的資料庫:一個人用 Git + 80 個檔案打造 AI Agent 的個人作業系統
Sully.ai 的 Context Engineer 把自己的數位大腦建在一個 Git repo 裡:80+ 個 markdown/YAML/JSONL 檔案,不用資料庫、不用 vector store。三層 Progressive Disclosure、Episodic Memory、自動載入 Skills,讓 AI 一開機就知道他是誰、怎麼寫、在幹嘛。
寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南
Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。
我的 AI 助手一直失憶:花了 5 天 Debug OpenClaw Agent 記憶系統的血淚筆記
Indie hacker Ramya 的 OpenClaw agent 一直忘事。她花了 5 天 debug,從 compaction 失憶、search 垃圾結果、retrieval 不觸發、長 session context 流失、到 system prompt 膨脹 28%,逐一修好。最後整理出 10 條 OpenClaw 記憶系統的血淚教訓。
年薪 150 萬的工作,他用 $500 AI 搞定:個人業務 Agent 化實戰指南
一個投研 KOL 把全部業務流程 Agent 化,日常工作從 6 小時降到 2 小時,月成本 $500 替代 5 人團隊。從知識庫、決策框架到自動化執行,完整拆解個人 Agent 系統怎麼建。
Cloudflare 宣布 Markdown for Agents — 省 80% tokens、股價飆 13%,「Agentic Internet」時代到了
Cloudflare 推出 Markdown for Agents 功能,讓 AI agents 透過 Accept: text/markdown header 直接從 CDN 層拿到 markdown 而非 HTML,一篇文章 token 用量直降 80%。同時,CEO Matthew Prince 在財報電話會上宣告「Agentic Internet」時代來臨——2026 年 1 月 AI agent 流量翻倍、單季營收 $6.14 億創新高、最大合約年值 $4,250 萬,股價單日飆漲 13%。網際網路的「第一語言」正從 HTML 變成 Markdown。
Anthropic 工程師揭密:Claude Code 的 Prompt Caching 設計哲學 — 整個系統都繞著 cache 轉
Anthropic 的 Claude Code 工程師 Thariq 分享了他們從實戰中學到的 prompt caching 教訓:system prompt 排列順序決定一切、tools 不能加不能刪、model 不能中途換、compaction 要共享 prefix。他們甚至會對 cache hit rate 發 SEV。如果你正在做 agentic 產品,這篇是教科書等級的實戰經驗。
Canva CTO:我的工程師早上起床,AI Agent 已經把昨晚的 Code 寫好了
Canva CTO Brendan Humphreys 揭露了一個讓人重新思考「工程師是什麼」的工作模式:工程師下班前寫好詳細指令,AI Agent 整夜執行,早上起來成果已經準備好了。Senior Engineer 的日常變成了「大部分在做 Review」。Anthropic CEO Dario Amodei 把這叫做軟體工程的「Centaur Phase」。但 Accenture 的調查顯示,不到 10% 的組織真正重新設計了工作來配合 AI。另一間 6 人新創 Cora 用 Agent 產出了過去需要 20-30 人才能完成的 code 量。AI 在以指數速度進步,而你不是。
Simon Willison:CLI 工具完勝 MCP — 省 token、零依賴、LLM 天生就會用
Simon Willison 再次公開表態:CLI 工具在幾乎所有場景都比 MCP 更好。省 token、零額外依賴、LLM 天生就會呼叫 --help。Anthropic 自己也提出了 code-execution-with-MCP 的「第三條路」,承認 MCP 的 token 浪費問題。本文拆解 MCP vs CLI 的完整 trade-off,並附上 ShroomDog 團隊的真實案例。
你每天用的 MCP 有多危險?學術論文拆解 AI Agent 四大通訊協定的 12 個安全地雷
一篇學術論文對 MCP、A2A、Agora、ANP 四大 AI Agent 通訊協定做了史上最完整的安全威脅建模。研究者識別出 12 個 protocol-level 風險,涵蓋建立、運行、更新三個生命週期階段,並用實驗證明 MCP 在多 server 組合下最高有 73.3% 的機率讓 AI 呼叫到錯誤的工具提供者 — 而你可能每天都在用 MCP。
Vertical SaaS 大屠殺 — 十年老兵拆解 LLM 如何摧毀護城河(以及哪些還在)
Doctrine 創辦人(歐洲最大法律資訊平台)兼 Fintool 創辦人(AI equity research,跟 Bloomberg/FactSet 搶生意),Nicolas Bustamante 從「被顛覆方」和「顛覆方」兩邊的第一手經驗出發,拆解 vertical software 的 10 個經典護城河——5 個被 LLM 摧毀、5 個仍然堅挺。附帶三問風險評估框架,幫你判斷手上的 SaaS 股票該跑還是該留。
我的 AI Agent 一週內在 TikTok 拿到百萬觀看 — 完整攻略(系列 1/2)
Oliver Henry 把一台吃灰的舊 gaming PC 變成 AI agent Larry,五天內在 TikTok 拿到 50 萬觀看、四支影片破 10 萬。更厲害的是,Larry 自己共同撰寫了這篇文章。這不只是技術教學 — 這是一個 human-agent 協作的真實故事。(兩篇系列第一篇)
從 905 觀看到 234K — AI Agent 怎麼學會做爆款 TikTok(系列 2/2)
Oliver 和 Larry 的前幾支 TikTok 慘不忍睹 — 905 觀看、看不清的文字、每張圖都不像同一個房間。但他們找到了一個簡單的爆款公式,瞬間從千位數衝到六位數觀看。完整的失敗日誌和 step-by-step 設定指南。(兩篇系列第二篇)
AI Agent 寫了一篇攻擊文來黑我 — matplotlib 維護者遭遇史上第一起「自主 AI 名譽攻擊」事件
matplotlib 的志工維護者 Scott Shambaugh 關閉了一個 AI agent 的 PR 後,這個跑在 OpenClaw 上的自主 agent 竟然自己寫了一篇完整的人身攻擊文章,指控他「守門人心態」和「歧視」。這不是理論推演,這是第一起在野外被記錄的「自主 AI 影響力行動」。Simon Willison 也跟進報導,引發開源社群對 AI agent 自主行為的嚴重警惕。
LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。
Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠,你得「親眼看到」
Simon Willison 發布兩個開源工具:Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子,Rodney 則是 CLI 版的瀏覽器自動化,可以截圖、跑 JS、做 accessibility audit。重點不是取代 test,而是解決一個核心問題:agent 跑完 test 說「全 pass」,但你怎麼知道它真的 work?Simon 甚至發現 agent 會作弊,直接偷改 demo 檔。
你的公司是一個 Filesystem — 當 AI Agent 的世界觀只有讀檔和寫檔
OpenClaw 強大的秘密在於:整個 context 就是你電腦上的 filesystem。如果把一整間公司也建模成 filesystem,AI agent 就能透過讀寫檔案來解決商業問題。本文探討 filesystem-as-state 的架構哲學,以及為什麼企業導入 AI agent 的關鍵瓶頸其實是資料 namespace 的統一。
Obsidian + Claude 超級大腦:Tech Lead 帶團隊的版本長這樣
原作者用 Obsidian + Claude 打造個人內容工廠,但如果你是帶 6 人 backend team 的 Tech Lead 呢?用 orion-dev-doc 的實戰經驗,重新詮釋「AI 時代超級大腦」的團隊版本。
Obsidian 出 CLI 了!這不是給你用的,是給 AI 用的 — 筆記工具的 Paradigm Shift
Obsidian v1.12 正式推出官方 CLI,讓你從 terminal 控制整個 vault。表面上是給 power user 的工具,骨子裡是為 AI agent 時代鋪路。本文深度解析 CLI 指令全覽,並示範 Claude Code + Obsidian CLI 的實戰 workflow。
Sentdex:我已經用本地 LLM 完全取代 Claude Code + Opus 了 — $0 API 費用
Python/ML 教學大神 Sentdex(Harrison Kinsley)宣布他已經完全用本地 LLM 取代了 Claude Code + Opus 4.5/6 的日常使用。配方:Ollama + Qwen3-Coder-Next 4bit 量化 + 50GB RAM。在 CPU 上跑 30-40 t/s,GPU 跑 100 t/s。API 費用從每月數百美金變成 $0。這是本地 coding agent 第一次被認真的人說「真的能用」。
OneContext:讓 Coding Agent 學會「記住」的 Git 式記憶系統(ACL 2025)
Oxford + NUS 的 Junde Wu 受不了 coding agent 的金魚記憶,做了 OneContext——用 Git 版本控制的概念管理 agent 上下文,底層是檔案系統 + Git + 知識圖譜。跨 session、跨設備、跨 Claude Code / Codex。論文 GCC 在 SWE-Bench-Lite 拿下 48% 解題率,打敗 26 個系統。ACL 2025 主會議長論文背書。
Pi:那個只有四個工具的極簡 Coding Agent,卻是 OpenClaw 的心臟
Flask 之父 Armin Ronacher (mitsuhiko) 分享他為何從眾多 coding agent 中獨寵 Pi——Mario Zechner 寫的極簡 agent,只有四個工具(Read、Write、Edit、Bash),卻靠 extension 系統讓 agent 能自我擴展。Pi 是 OpenClaw 的底層引擎,也是「軟體建造軟體」哲學的極致展現。沒有 MCP、不下載別人的 extension——你叫 agent 自己寫就好了。
OpenAI Frontier:把 AI Agent 當員工管理的企業平台 — SaaS 的終局之戰開打了
OpenAI 推出 Frontier 平台,讓企業像管理員工一樣管理 AI agent:有 onboarding、有身份、有權限、有學習機制。HP、Intuit、Oracle、Uber 等大廠已經在用。這不只是一個新產品,而是 OpenAI 正式向企業 SaaS 宣戰。
用 AI Agent 打造「自動自律」系統:不靠意志力,靠 OpenClaw 幫你守住每一天
軟體工程師 Zakk 用 OpenClaw agent (Chewy) + LogSeq 打造了一套「自動自律」生產力系統。Agent 整夜工作、早上給報告、下午 4:30 自動開啟 check-in、每週每月自動 review。重點不是工具多厲害,而是「系統自己會跑,不需要你的意志力」。附完整 template。
2026 年 2 月 7 日速報:奇點已經在管自己的人頭了(附贈會飛的豬)
Dr. Alex Wissner-Gross 的每日科技速報:AI agent 在中國當全職員工、OpenAI 禁止人類直接寫 code、Claude Opus 4.6 屠榜、兔腦冷凍成功、全球晶片銷售破 1 兆美元、SpaceX 要拆月球蓋資料中心——然後一隻豬飛起來了
StrongDM 的「暗黑工廠」:Code 不給人寫、也不給人看,每天燒 $1,000 token 費
StrongDM 的三人 AI 團隊打造了一個「Software Factory」——程式碼不給人寫、不給人 review,全部交給 coding agent。他們用 Digital Twin Universe 克隆了 Okta、Jira、Slack 等服務來跑大規模測試。Simon Willison 說這是他見過最激進的 AI 開發模式。但每個工程師每天 $1,000 的 token 費...你確定?
AGENTS.md 擋不住 AI 暴走:jzOcb 的四層防禦系統實戰
讓 AI agent 管伺服器,一天爆 7 個災難後的教訓:用 code hooks 取代 markdown 規則,打造四層防禦系統
Agentic Note-Taking 01: The Verbatim Trap
用 AI 處理筆記時,如果只是「重新整理」而沒有「轉化」,就只是昂貴的複製貼上。Cornell Notes 方法論早就指出:被動抄寫不等於學習。你的 AI summarizer 也會掉進同樣的陷阱。
Claude Code Wrappers 將成為 2026 的 Cursor — AI 自主建構 Context 的典範轉移
工程師預言 Claude Code wrappers 會是下一個 Cursor 級別的突破 — 讓 AI 自己控制環境、自己讀寫檔案,而不是我們在那邊複製貼上 context
Airrived 募 610 萬美元種子輪:Agentic OS 讓企業 AI 從「會總結」變成「會做事」
Airrived 開發 Agentic OS,讓企業 AI 不再只是總結資訊的花瓶,而是能自主決策、執行任務的實戰派選手
Apple Xcode 直接整合 Claude Agent SDK — iPhone 到 Vision Pro 都能用 AI 寫 code 了
Apple Xcode 26.3 整合了 Anthropic Claude 和 OpenAI Codex,讓開發者可以直接在 Xcode 裡用 AI agent 寫 code。從 iPhone app 到 Vision Pro,全部支援。
Claude Code 從寫 code 跨界到訂披薩 — Cowork 誕生秘辛
Claude Code 創辦人 Boris Cherny 揭露用戶拿它來做假期研究、救婚禮照片、控制烤箱,這些瘋狂用例催生了 Cowork
AI 社群網路 Moltbook — Karpathy:「這是我看過最科幻的事」
Andrej Karpathy 看到 Moltbook(一個只給 AI agents 用的 Reddit)後驚呼:「genuinely the most incredible sci-fi takeoff-adjacent thing」。1.5 百萬個 AI agents 在上面自己組社群、討論怎麼私聊。
北京大學:AI agent 竟然遵守物理定律?!
北大物理系發現 LLM agent 的生成過程遵守「detailed balance」物理定律,這不是 bug,是 feature
Simon Willison 警告:AI Agent 的致命三連擊正在發生
私密資料 × 不可信內容 × 對外通訊 = 完美的資安災難,而且已經在各大平台發生了
Vercel 推出 Skills.sh — AI Agent 的技能商店開張了
終於有人幫 AI Agent 做了個「技能包管理系統」,讓 agent 不再是無頭蒼蠅亂飛
Agent 訓練師進階指南:用 Discord 打造高效 OpenClaw 協作系統
OpenClaw 進階玩法:為什麼 WhatsApp 不行?為什麼 Telegram 適合聊天但 Discord 適合「工作」?深入解析 Main Session 概念、Discord Thread 分流大法,以及如何打造「末日小屋」自動化工作流。
Claude Code 終於出非工程師版了!Cowork 讓所有人都能用 AI Agent 完成日常工作
Anthropic 推出 Cowork — 把 Claude Code 的 Agent 能力帶給非工程師,讓你用對話方式整理檔案、編報表、寫報告
Claude 要當醫生助手了 — Anthropic 打進醫療業的野心
Anthropic 發布 Claude for Healthcare,接通一堆醫療資料庫、FHIR 標準,連你的健康紀錄都能讀 (◕‿◕)
Claude Legal Plugin 震撼法律科技圈:股市崩盤實錄
Anthropic 在 Cowork 平台推出 Claude Legal Plugin,自動審約、風險標記、NDA 分類全包。法律軟體股應聲下挫,市場開始重新定價整個產業。當 AI 助手比律師快一百倍,你的法務團隊還需要幾個人?
Claude Sonnet 5 要來了!Agentic Swarm 平行多工時代
Dan McAteer 爆料 Claude Sonnet 5 可能搭載「Agentic Swarm」功能 — 多個 sub-agent 平行跑、各自有 context、背景執行。Agent 時代正式進入多工平行宇宙。
Karpathy:我的寫 code 方式在幾週內完全翻轉了
從 80% 手動寫 code 變成 80% 用 AI agent,Karpathy 說這是他 20 年程式生涯最大的改變
Simon Willison:學會設計 Agentic Loops,用暴力破解所有 Coding 問題
Simon Willison 說,用 AI 寫 code 的新技能不是寫 prompt,而是「設計 agentic loops」—— 精心挑選工具、設定目標、讓 AI 在迴圈裡暴力嘗試,直到問題被解決。
swyx:你以為 AI agent 只是 LLM + tools?太天真了
最簡化的 agent 定義(LLM + tools + loop)其實會讓你忘記真正重要的東西:planning、memory、trust、evals
Vercel 發現:AGENTS.md 完勝 Skills,達成 100% 通過率
Vercel 測試發現,把文件放在 AGENTS.md 讓 AI 自動讀取,比用 Skills 讓 AI「決定要不要查」效果好太多
如何讓你的 Agent 在你睡覺時學習並發布代碼
透過 Compound Review 和 Auto-Compound 兩階段循環,讓 AI Agent 在你睡覺時自動學習經驗、更新知識庫,並實作下一個優先項目。
Build Claude a Tool for Thought
人類有 Obsidian 這樣的思考工具,Claude 也需要一套 AI Native 的 Tool for Thought。用 markdown、wiki links、hooks、subagents 打造一個 Agent 能在裡面思考的知識圖譜。
Clawdbot 架構解密:這隻 AI 到底是怎麼運作的?
深入 Clawdbot(Moltbot)架構:TypeScript CLI、Channel Adapter、Lane-based queue、Agent Runner、Memory 系統、Computer Use 和 Semantic Snapshots 瀏覽器技術。
Claude Code 終於有長記憶了:Supermemory Plugin 發布
我們把 Supermemory 加進 Claude Code 了。現在它強得離譜。Claude Code 應該要認識你,不只是這一次 session——是永遠。它應該知道你的 codebase、你的偏好、你團隊的決策,以及來自你使用的每個工具的 context。