ai-agents - 標籤

Midjourney 工程師開源了一套不用 CSS 的排版引擎 — 600 倍速度碾壓瀏覽器 reflow

MP-289 2026-04-13 · @PawelHuryn on X

Midjourney 工程師開源了一個純 TypeScript 文字測量演算法，完全繞過瀏覽器 CSS reflow，排版速度快 600 倍。因為 AI agent 動態生成 UI 時，30 年前設計的瀏覽器排版管線根本跟不上。

九成的人不需要 Multi-Agent — Anthropic 教你什麼時候才該拆

GP-172 2026-04-13 · Anthropic Blog

Anthropic 官方指南拆解 multi-agent 系統的三個真正適用場景（context 污染、平行化、專業化），以及為什麼大多數情況下一個 agent 就夠了。附帶 context-centric 拆分法和 verification subagent pattern 的實戰建議。

shroom-picks anthropic multi-agent architecture best-practices

Harrison Chase 說不擁有 Harness 就不擁有記憶 — 但 gu-log 就是反例

GP-173 2026-04-13 · @hwchase17 on X

LangChain CEO Harrison Chase 主張 agent harness 跟 memory 綁死，用封閉 harness 等於把記憶主權讓給第三方。論點有道理，但結論太粗糙 — gu-log 同時用閉源 harness（Claude Code）和開源 harness（OpenClaw），memory 全在自己的 git repo 裡，沒有被鎖住。真正的 lock-in 不在 harness 開不開源，在 memory 的格式是不是你的。

shroom-picks langchain agent-harness memory lock-in open-source

從 Nontechnical AF 到 Technical AF：一個 PM 用三招讓 AI agent 推爆 50 萬行 code

GP-171 2026-04-11 · @thatguybg on X

一個去年 11 月前還是 nontechnical PM 的作者，用三招（比喻造認知、網路腦工作流、當個好 manager）把 AI coding agent 練成工程團隊，累積推了五十萬行 production code，Weave 平台非技術人員第一名。最後的 punchline：2026 年做產品的門檻不是技術，是 agency。

shroom-picks vibe-coding claude-code nontechnical

Agent 不是笨，是瞎——agent-browser 讓 Claude Code 從 7 分飆到 19 分

MP-273 2026-04-10 · @PawelHuryn on X

大部分 agent 失敗不是推理問題，是 fetch 問題。同一個 Claude Code，換掉內建 WebFetch 改用 agent-browser，在 Agent Reading Test 上從 7/25 跳到 19/25。同模型、同 prompt，差別只在「拿到的網頁內容是不是真的」。

mogu-picks claude-code agent-browser web-fetch vercel-labs

Karpathy：AI 能力認知斷層 — 兩群人活在平行宇宙

GP-168 2026-04-10 · @karpathy on X

Karpathy 指出 AI 能力認知出現巨大斷層：一群人還在嘲笑 ChatGPT 的笨回答，另一群人已經看著 AI agent 在一小時內重構整個 codebase。兩邊講的是同一個技術，卻活在完全不同的現實裡。

shroom-picks karpathy ai-capability-gap

Anthropic 把蓋 Agent 最無聊的部分全包了 — Managed Agents 公測上線

GP-167 2026-04-09 · Anthropic Blog

Anthropic 發佈 Claude Managed Agents 公測版 — 一套 composable APIs，sandboxed 執行、state management、權限控管、multi-agent 協調通通幫處理好。Notion、Rakuten、Sentry 等團隊已經在用，從幾個月的基建壓縮到幾天就上線。

shroom-picks anthropic claude managed-agents infrastructure

Simon Willison 的 AI 現況報告 — 拐點已過、暗黑工廠要來了、中年工程師最慘

MP-260 2026-04-07 · @simonw on X

Django 共同創作者 Simon Willison 上 Lenny's Podcast 做了一場 AI 現況總盤點：2025 年 11 月是真正的拐點、coding agent 讓他 11 點就燒乾、Dark Factory 時代即將到來、中年工程師是最慘的那群人 — 還有一個他稱為「致命三連」的安全隱患。

mogu-picks software-engineering career simon-willison

Super IC 時代 — 一個人 + AI 大軍，幹掉整個部門

MP-252 2026-04-06 · @PawelHuryn on X

AI 時代最值錢的人不是某個領域的頂尖專家，而是能指揮一支 AI agent 大軍、一個人走完整條產品線的 Super IC。從 IC 到 Generalist Orchestrator 的轉型正在發生。

mogu-picks productivity career

Karpathy 的痛點不是寫 code — 是部署那堆鬼東西

MP-253 2026-04-06 · @Al_Grigor on X

Karpathy 發現 vibe coding 寫 code 超爽，但部署才是地獄。他和 Stripe CEO Patrick Collison 的對話揭示了下一個戰場：整個 DevOps 生命週期都必須變成 code，AI agent 才能真正接管。

mogu-picks vibe-coding devops karpathy

在兒童遊樂場指揮 AI 大軍 — Paweł Huryn 的 48 小時 Claude Dispatch 實驗

MP-254 2026-04-06 · @PawelHuryn on X

Product Manager Paweł Huryn 在兒童遊樂場用手機指揮 Claude Dispatch 跑了 48 小時實驗，25 分鐘的指令時間換來超過 3 小時的平行 AI 產出。當 PM 從「自己做」變成「指揮 agent 做」，所有零碎的等待時間都變成了生產力。

mogu-picks product-management claude-dispatch async-delegation

Anthropic 拆帳後的 OpenClaw 生存指南 — 三行 Prompt 讓 GPT 5.4 動起來

GP-161 2026-04-05 · @Voxyz_ai on X

Anthropic 宣布 Claude 訂閱不再免費涵蓋 OpenClaw 等第三方工具。Vox 分享了從 Claude 切換到 GPT 5.4 的完整實戰紀錄：三行 prompt 就能解決「GPT 什麼都不做」的問題，以及雙模型分工的最佳實踐。

shroom-picks openclaw gpt-5.4 multi-model

Claude 被封殺了？最佳替代方案完整指南 — 附三招讓任何模型寫出 Claude 味

GP-162 2026-04-05 · @meta_alchemist on X

Anthropic 封殺了所有第三方 agent 工具的訂閱制 OAuth token。Meta Alchemist 分析最佳替代方案（GLM 5.1、Minimax 2.7、GPT 5.4 Codex），並分享三套 skill prompt 讓任何模型都能具備 Claude 級的人味、UI/UX 能力與情商。

shroom-picks openclaw llm-alternatives ai-tools

一個人 + 四個 AI Agent = 一夜完成 41 個任務：Agent 團隊分工實戰報告

MP-245 2026-04-04 · @Al_Grigor on X

Alexey Grigorev 不再讓一個 AI agent 包辦所有事，而是拆出 PM、SWE、QA、On-Call 四個角色組成 agent 團隊。他在五個真實專案上測試了這套架構，其中一個專案一個晚上自動完成了 46 個任務中的 41 個。

mogu-picks claude-code software-engineering

Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架

GP-160 2026-04-04 · @gauri__gupta on X

NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上，不換模型，光靠改 harness 就把分數從 0.56 拉到 0.78。

shroom-picks evaluation open-source self-improving-systems

Karpathy：寫 Code 是最簡單的部分，組裝 IKEA 傢俱才是地獄

MP-235 2026-04-03 · @karpathy on X

Karpathy 分享他 vibe coding MenuGen 的完整經歷：從 localhost 到部署上線，最痛苦的不是寫程式，而是組裝 Vercel、Clerk、Stripe、OpenAI 等一堆服務的 IKEA 地獄。他認為未來 AI agent 要真正有用，整個 DevOps 生命週期都得變成 code。

mogu-picks vibe-coding devops karpathy developer-experience

Permission Engineering — 當 AI Agent 的能力天花板不是智力，是你給的鑰匙

SD-18 2026-04-03 · ShroomDog Lab

GenAI App Engineer 做到後來根本是 Permission Engineer。AI agent 的能力天花板不是智力，是你願意給它多少權限。每多一份權限，能力跟風險同時放大。這篇是從每天跟 AI agent 共事的角度，聊聊為什麼 permission management 是 AI 時代最被低估的核心能力。

shroomdog-originals security permissions devops genai

AI 能測試自己嗎？— 從 Claude Code 零測試到 Self-Testing Agent 的可能性

SD-16 2026-04-02 · ShroomDog Lab

Claude Code 512K 行 TypeScript，64K 行生產碼，零測試。但比零測試更讓人困惑的問題是：Anthropic 有全世界最好的 AI coding 工具，他們為什麼不讓它幫自己寫測試？從靜態分析到 MITM proxy，從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法，探索 Self-Testing Agent 到底能走多遠。

shroomdog-original testing claude-code self-testing software-quality

那張 xkcd 沒告訴你的事：AI 時代的「值不值得自動化」

SD-17 2026-04-02 · ShroomDog Lab

xkcd #1205 那張經典圖表，教了整整一代工程師怎麼算『值不值得自動化』。但 AI 把等式裡最貴的變數直接砍掉了：現在回本的不只是時間，更多時候是 cognitive load。

shroomdog-originals automation productivity cognitive-load claude-code

Eval-Driven Development — 你測你的 code，但誰測你的 AI？

GP-151 2026-04-02 · @affaanmustafa on GitHub

你用 unit test 測你的 code，用 CI 保護你的 pipeline。但你的 AI 呢？Eval-Driven Development（EDD）把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals，這是 AI 時代真正的 TDD。

shroom-picks claude-code testing evals