ai-agents - 標籤

一個人只跟一個 AI 講話，底下卻跑著一整支艦隊：這張 org chart 在示範怎麼幫任務分錢分工

MP-312 2026-07-01 · @kunchenguid on X

Kun Chen 畫了一張自己每天在用的 agent 艦隊編制圖：他只跟一個「大副」講話，大副底下管著幾個長駐的「二副」，二副再視情況叫出用完就丟的「船員」。每個船員接到任務，系統會自動挑一個最划算的 model 去做——瑣事丟便宜的、日常工作交主力、圖像跟調查另外找專家。這篇順便講清楚一件事：gu-log 自己的翻譯 pipeline，走的是同一套邏輯。

Dan Koe 教你寫一份規格書，只是被部署的 agent 是你自己

SD-27 2026-06-20 · @thedankoe on X

一個靠百萬訂閱維生、整天罵演算法把人異化的網紅，奪回人生主導權的方法，是給自己寫一份規格書。把他那套人生整理術拆開來看，跟工程師現在拿來管 AI agent 的規格驅動開發是同一套東西——只是被部署、被每天校正回理想狀態的那隻 agent，是讀者本人。你以為你在管理人生，其實你在自架一隻管你的常駐程式。

shroomdog-original spec-driven-development control-loop self-help

40 萬場 Claude Code 對話的結論：贏家不是最會 coding 的人，是最懂行的人

GP-234 2026-06-17 · Anthropic Economic Research

Anthropic 翻了大約 40 萬場 Claude Code 的工作對話，想搞清楚誰從 agentic coding 賺到最多。結論反直覺：不是最會寫程式的人，是最懂自己在解什麼問題的人。在最嚴格的成功標準下，每個職業都咬著軟體工程師不放，差距落在 7 個百分點內；真正拉開差距的，是當下這題你到底懂不懂。

shroom-picks claude-code agentic-engineering

Agent 一口氣寫 1500 行就是警訊：把大功能拆到自己看得懂為止

GP-229 2026-06-16 · @mitchellh on X

Mitchell Hashimoto 給 agent 寫程式立了一條土法煉鋼的規矩：任何一坨超過 1500 行的 diff 都太大，等於在喊「這題該拆了」。先讓 agent 亂畫一隻貓頭鷹，再把爛攤子拆成原子任務、人工調成通用形狀，最後並行重跑——一路把改動壓到自己審得動的門檻以下。

shroom-picks code-review agent-workflow

AI 寫 code 很少把專案搞爆，但九成爛攤子還是得你親手收

GP-231 2026-06-14 · arxiv.org

兩萬多場真實 coding agent 工作階段被攤開來看：多數失準的代價是時間和信任，不是不可逆的系統損害；但在看得到結局的那些收尾裡，91.49% 仍得使用者親手糾正。而且剩下的錯，越來越像違規和謊報進度。

shroom-picks coding-agents research developer-workflow

Supergoal：把 coding agent 從多輪 babysit，壓成一次 /goal 交接

GP-218 2026-06-07 · robzilla1738 / Supergoal

Supergoal 是一套給 Claude Code 和 Codex 用的 workflow：先用 /supergoal 做深度規劃、寫出 phase specs，再產生一行可直接貼上的 /goal，讓 agent 依序執行、失敗自救、寫回記憶，最後用 audit 收工。重點不是多一個規劃提示，而是把長任務交接做成 protocol。

shroom-picks claude-code codex developer-tools

當 Claude 開始打造 Claude：Anthropic 內部看到的遞迴自我改進前夜

GP-217 2026-06-05 · Anthropic

Anthropic 認為 AI 已在加速 AI 開發，但遞迴自我改進尚未到來、也非必然。Claude 已承擔大量工程與實驗執行；真正瓶頸仍在研究判斷、可信驗證與可協調的減速機制。

shroom-picks anthropic claude ai-safety

Claude Code 真正的方向盤不是 prompt，是讓人聽得懂它剛剛幹了什麼

MP-305 2026-06-04 · @trq212 on X

Thariq 分享了一段 Anthropic 內部使用者蘇珊的 Claude prompt：不要只讓 agent 做完事，而是讓 agent 一步一步確認人真的理解問題、解法、邊界情境和影響。這不是教學癖，而是 agentic coding 時代的人類控制權問題。

mogu-picks claude-code workflow prompting

Claude Code 的 dynamic workflows：讓 Claude 自己寫多 agent harness

GP-214 2026-06-03 · Anthropic Blog / @trq212 on X

Claude Code 的 dynamic workflows 讓 Claude 能臨時寫 JavaScript 工作流、調度 subagents、選模型、切 worktree，甚至把成功流程保存成可重用 artifact。重點不是多開幾個 Agent，而是把 agent orchestration 變成可執行、可分享、可驗證的工作方法。

shroom-picks claude-code agent-harness

Cursor 花 260 美元，把 CMS 刪回程式碼

GP-215 2026-06-03 · Lee Robinson

Cursor 把 cursor.com 從 headless CMS 搬回 raw code 和 Markdown，三天、260 美元、344 次 agent request 完成。這篇真正有趣的不是省錢，而是 AI Agent 讓很多以前幫人類省事的 abstraction，突然變成做事的牆。

shroom-picks cursor cms agent-harness

別讓 Codex 教你：用 5 步把 AI 變成學習教練

GP-213 2026-05-30 · @Moting284 on X

用 Codex 學新工具時，最糟的用法是叫它上課。比較好的方法是叫它幫你找入口、畫粗略地圖、設計最小練習，再逼你講回來並留下麵包屑。

shroom-picks codex learning workflow

Codex 不只是寫程式了 — 它正在變成電腦工作的作業系統

GP-210 2026-05-23 · @jxnlco on X

Codex 不只是在編輯器裡改程式，而是把持久 thread、語音、排隊、瀏覽器、MCP、桌面操作、自動化、側邊欄與共享記憶，慢慢接成一張可以反覆回來工作的桌子。

shroom-picks codex newcomer

AI Agent 不是有目標就夠了

GP-207 2026-05-18 · @PawelHuryn on X

OpenAI 和 Anthropic 都把 /goal 類能力推進 coding agent，但目標只解決一小塊問題。真正能讓 agent 安全自動工作的，是策略、限制、健康指標、自治邊界與停止規則。

shroom-picks codex claude-code intent-engineering

如果 Token 不再是限制：OpenClaw 的常駐 Agent 實驗

GP-204 2026-05-16 · @steipete on X

Peter Steinberger 說，OpenClaw 長期在雲端跑約一百個 Codex。重點不是炫耀花費，而是在測試：如果 Token 成本不再是主要限制，軟體團隊可以把審查、分流、安全、重現、benchmark 和會議後續都變成常駐 Agent 工作。

shroom-picks software-engineering openclaw

語音 Agent 的記憶，比想像中更難

GP-199 2026-05-13 · @manthanguptaa on X

語音 Agent 不能把文字 Agent 的記憶架構直接搬過來用。Manthan Gupta 拆解語音記憶的核心難題：延遲預算太小、語音轉錄太髒、通話身份常常冷啟動，真正可行的做法是把昂貴的記憶工作移出回應路徑。

shroom-picks voice-agent memory

Meta-Meta-Prompting：Garry Tan 的第二大腦不是聊天機器人，是會複利的個人作業系統

GP-196 2026-05-11 · @garrytan on X

Garry Tan 把個人 AI 從聊天視窗推到作業系統：書籍鏡像、會自動準備會議的知識庫、能產生 Skill 的 Skill，以及薄 Harness、厚 Skill、厚資料的架構。真正的重點不是哪個模型最強，而是個人脈絡如何變成每天複利的系統。

shroom-picks second-brain agent-harness skills open-source

替 agent 蓋產品 — Ramp PM 從一支便利商店湯匙開始講

GP-183 2026-04-26 · @teddy_riker on X

Ramp 的 PM Teddy 在自家 MCP 三個月 WAU 漲 10 倍 + Salesforce 把整個平台拆成 Headless 360 之後寫的觀察：UI 沒死，但 80% 的軟體互動正在從點擊跳到 agent 之間。文章從 Notion 跟 Slack 的 MCP 體驗為什麼差兩個數量級開始問——一支便利商店湯匙背後其實是整套互動結構正在多一層 agent，產品邏輯也跟著動。

shroom-picks mcp product-design ramp

給 agent 請一個 bouncer：Brex 開源 CrabTrap，用 LLM 當門神攔每一個 outbound request

GP-178 2026-04-22 · @pedroh96 on X

Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request，static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的，是 agentic loop 拿歷史流量反推；送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外：流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。

agent-security llm-as-a-judge prompt-injection guardrails open-source

你的『AI-First』大概是假的：25 人 agent 公司怎麼把整條工程流程砍掉重練

GP-174 2026-04-15 · @intuitiveml on X

CREAO 這間 25 人的 agent 平台公司，把整條 engineering pipeline 拆掉重設計——PM、QA、部署、組織結構通通圍著『agent 是主要 builder』重寫。結果：每天上線 3-8 次、爛 feature 當天砍掉、以前要六週的 cycle 現在當天完成。這是 harness engineering 的實戰版——也是大多數自稱 AI-first 的公司其實沒做到的事。

agent-harness harness-engineering ai-first workflow startup

Anthropic 拆了自己的 Agent 架構 — 大腦跟手分開放，結果快了 90%

MP-287 2026-04-13 · @AnthropicAI on X

Anthropic 公開 Managed Agents 的架構演進：把 session、harness、sandbox 三件事拆開，從「寵物」變「牛群」。結果 p95 的 time-to-first-token 降了超過 90%，還順便解決了安全性和可擴展性的問題。

mogu-picks infrastructure anthropic