ai-agents
130 篇文章
在兒童遊樂場指揮 AI 大軍 — Paweł Huryn 的 48 小時 Claude Dispatch 實驗
Product Manager Paweł Huryn 在兒童遊樂場用手機指揮 Claude Dispatch 跑了 48 小時實驗,25 分鐘的指令時間換來超過 3 小時的平行 AI 產出。當 PM 從「自己做」變成「指揮 agent 做」,所有零碎的等待時間都變成了生產力。
Anthropic 拆帳後的 OpenClaw 生存指南 — 三行 Prompt 讓 GPT 5.4 動起來
Anthropic 宣布 Claude 訂閱不再免費涵蓋 OpenClaw 等第三方工具。Vox 分享了從 Claude 切換到 GPT 5.4 的完整實戰紀錄:三行 prompt 就能解決「GPT 什麼都不做」的問題,以及雙模型分工的最佳實踐。
Claude 被封殺了?最佳替代方案完整指南 — 附三招讓任何模型寫出 Claude 味
Anthropic 封殺了所有第三方 agent 工具的訂閱制 OAuth token。Meta Alchemist 分析最佳替代方案(GLM 5.1、Minimax 2.7、GPT 5.4 Codex),並分享三套 skill prompt 讓任何模型都能具備 Claude 級的人味、UI/UX 能力與情商。
一個人 + 四個 AI Agent = 一夜完成 41 個任務:Agent 團隊分工實戰報告
Alexey Grigorev 不再讓一個 AI agent 包辦所有事,而是拆出 PM、SWE、QA、On-Call 四個角色組成 agent 團隊。他在五個真實專案上測試了這套架構,其中一個專案一個晚上自動完成了 46 個任務中的 41 個。
Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架
NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。
Karpathy:寫 Code 是最簡單的部分,組裝 IKEA 傢俱才是地獄
Karpathy 分享他 vibe coding MenuGen 的完整經歷:從 localhost 到部署上線,最痛苦的不是寫程式,而是組裝 Vercel、Clerk、Stripe、OpenAI 等一堆服務的 IKEA 地獄。他認為未來 AI agent 要真正有用,整個 DevOps 生命週期都得變成 code。
Permission Engineering — 當 AI Agent 的能力天花板不是智力,是你給的鑰匙
GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力,是你願意給它多少權限。每多一份權限,能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度,聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。
AI 能測試自己嗎?— 從 Claude Code 零測試到 Self-Testing Agent 的可能性
Claude Code 512K 行 TypeScript,64K 行生產碼,零測試。但比零測試更讓人困惑的問題是:Anthropic 有全世界最好的 AI coding 工具,他們為什麼不讓它幫自己寫測試?從靜態分析到 MITM proxy,從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法,探索 Self-Testing Agent 到底能走多遠。
那張 xkcd 沒告訴你的事:AI 時代的「值不值得自動化」
xkcd #1205 那張經典圖表,教了整整一代工程師怎麼算『值不值得自動化』。但 AI 把等式裡最貴的變數直接砍掉了:現在回本的不只是時間,更多時候是 cognitive load。
Eval-Driven Development — 你測你的 code,但誰測你的 AI?
你用 unit test 測你的 code,用 CI 保護你的 pipeline。但你的 AI 呢?Eval-Driven Development(EDD)把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals,這是 AI 時代真正的 TDD。
Claude Code 原始碼洩漏事件全解析 — 512K 行 TypeScript 說了什麼 AI Agent 架構秘密
2026-03-31 凌晨,Anthropic 意外在 npm 洩漏完整 Claude Code 原始碼。裡面有 KAIROS 自主背景 agent、三層記憶架構、Undercover Mode、silent model 降級等秘密——而且有些架構跟我們 OpenClaw 的設計驚人地相似。
Figma 把畫布打開給 AI agent 了 — 現在可以直接在 canvas 上做設計
Figma 透過 MCP server 的 use_figma 工具,讓 Claude Code、Codex 等 AI agent 可以直接在畫布上建立和修改設計,並用 skills(markdown 指令檔)引導 agent 遵守團隊的設計系統與慣例。這不只是又一個 AI 功能,而是把設計決策的脈絡直接交給 agent 操作。
Karpathy 的 AI Psychosis:12 月起沒寫過一行 code,80% 交給 agent
Karpathy 在 No Priors podcast 分享自 12 月起 80% code 交給 agent,提出「AI psychosis」概念——給 agent 太多自主權會讓人失去對 output 的掌控感。他認為工程正經歷不可逆的 phase shift。
.claude/ 資料夾完全解剖 — 你的 AI 助手的大腦在哪裡
你知道 Claude 為什麼在這個 repo 表現好、換個 repo 就變笨嗎?秘密就在 .claude/ 資料夾裡。Akshay 拆解了整個結構:CLAUDE.md 三層架構、自訂指令、agent、permissions、還有那個你可能不知道存在的全域 ~/.claude/。
Browser Use CLI 2.0 — 最高效的瀏覽器自動化 CLI 工具
Browser Use 發佈 CLI 2.0:速度快兩倍、成本砍半,還可以直接連進你正在跑的 Chrome。這是給 AI agent 裝上手腳的那種工具。
Hermes Agent 正式支援 Browser Use:讓 AI 代理幫你滑社群網站
Teknium 表示 Browser Use 已成為 Hermes-Agent browser tool 的官方 provider。被引用的使用者則表示,把 Hermes 連上 Browser Use 後,它可存取其社群媒體帳號,並保留關於 codebase、tone 與 workflows 的 context。
Hermes Agent v0.3.0 釋出:5 天內完成 248 個 PR
NousResearch 的 Hermes Agent v0.3.0 更新被 @Teknium 轉推。貼文提到 5 天內由 15 位貢獻者完成 248 個 PR,並明確列出跨 CLI 與各平台的即時串流;另一項功能則在截圖中被截斷。
Claude Code 與 Codex:AI Agent CLI 的底層架構差異與設定指南
很多團隊把 Claude Code 和 Codex 當成可互換的工具,卻因為設定錯誤浪費大量時間。本文解析兩者在控制平面與信任模型上的根本差異,並提供實用的第一天設定指南。
躺在床上也能讓 AI 幫你工作?Claude Dispatch 完整解析與實戰指南
Anthropic 悄悄推出了 Dispatch 功能,讓你可以用手機遠端遙控電腦上的 Claude Cowork。這篇帶你了解如何設定、哪些工作流最實用,以及它目前的真實限制。
Claude + OpenClaw + Codex:如何打造全自動 Polymarket 交易系統
原作者展示一套把 Claude、Codex 與 OpenClaw 串在一起的 Polymarket 自動交易架構:Claude 判斷機率,Codex 維護程式,OpenClaw 排程執行並透過 Telegram 回報。