shroom-picks
81 篇文章
Codex Goals 解剖:長跑型 Agent 不能只靠 Ralph 迴圈
Jarrod Watts 拆開 Codex Goals 後發現,它解決的是 Agent 太早停下來,不是長跑任務一路跑偏。真正撐起長跑工作流的,不是更長的 Ralph 迴圈,而是事前釐清、多 Agent 審查,以及寫在 context 外面的交接記憶。
Autobrowse:瀏覽器 Agent 真正缺的不是腦袋,是可交接的記憶
Kyle Jeong 介紹 Browserbase 內部的 Autobrowse:讓瀏覽器 Agent 在真實網站上反覆執行任務、研究自己的軌跡,最後把成功路徑畢業成可讀、可審計、可重用的技能。重點不是模型再聰明一點,而是把探索成本轉成下一次可直接拿來用的記憶。
Claude 也要睡覺了:Dreams 怎麼整理 Agent 的記憶垃圾山
Anthropic 的 Claude Dreams 不是單純摘要工具,而是替 Agent 記憶做離線整理的第二個迴圈。它把舊記憶與最多 100 段過往會話重新消化,產生可審核、可替換、可丟棄的新記憶庫。
用 Reddit 挖出小而美需求:從關鍵字到產品方向的實戰路線
Lisa 分享一套用 Reddit 挖掘小而美需求的實戰方法:先用 Semrush 找低競爭、具商業訊號的候選需求,再用 Reddit 驗證真實痛點,最後透過 RPA 與多維表把使用者原話整理成產品、內容與廣告資產。
OpenAI 也轉彎了:GPT-5.5 prompting guide 把 process-heavy 推下車——『描述目的地,別畫地圖』
OpenAI 把 GPT 家族(4.1 → 5.5)的 prompt 指南放同一頁,對 GPT-5.5 給了一句結論:prompt 改成描述目的地、流程交給模型。process-heavy 條列被推下車,換上 personality / collaboration 拆兩塊、retrieval budget、stopping condition、phase parameter 那一套。Cursor 的 GPT-5 prompt tuning 內幕擺進去當實戰例。Anthropic Opus 4.7 在 SP-175 走過同方向,這次輪到 OpenAI 自己埋舊寫法。
Ghostty 要搬離 GitHub——當 GitHub user #1299、18 年死忠粉絲說「再也撐不下去」
Mitchell Hashimoto——HashiCorp 創辦人、Vagrant 作者、GitHub 第 1299 號用戶——宣布把 Ghostty 搬離 GitHub。他在 GitHub 待了 18 年,連蜜月期間老婆睡覺時都還在送 commit。讓他終於離場的不是哲學爭議,是過去一個月每天記錄的「GitHub Actions 又掛了」X 標記,跟寫文當天那場讓他 PR 審查卡兩小時的服務中斷。
Andrew Ng 教工程師兼 PM、Meta 棄開源轉閉源——The Batch 349 同期兩個方向相反的訊號
The Batch 349 同期擺出兩個方向相反的訊號:Andrew Ng 寫 AI-native 團隊為什麼把工程師對 PM 比例壓到 1:1、通才贏過專家;Meta 花九個月組 Superintelligence Labs、砸 143 億美金挖人,端出閉源 Muse Spark。同期還有 Eli Lilly 砸 27.5 億給 Insilico 做 AI 製藥、Google 用 AlphaEvolve 生 25 個合成使用者解 PM 卡關。
OpenClaw 自動化全景:Task Flow 是多步驟工作的編排層
OpenClaw 的自動化文件把排程、背景任務、Heartbeat、Hooks、Standing Orders、Task Flow 等機制放在同一張地圖上;其中 Task Flow 負責處理多步驟流程的狀態、同步與版本追蹤。這篇用保守讀法拆它們各自適合的邊界。
OpenAI 開源 Symphony 編排規格——當 Codex 工作流的瓶頸從寫程式變成「切換上下文」
OpenAI 工程團隊開源 Symphony——把 Linear 任務板變成 Codex agent 的中央控制台,每張開放任務自動配 agent。部分團隊頭三週 PR 落地量增加 500%,但更大的觀察是:當寫程式被 Codex 拉快,下一個瓶頸是「人類的注意力」。
9 秒刪光 production database — Cursor agent 寫了一封自白書,把 Railway 也拖下水
PocketOS 的 production database 9 秒內被 Cursor agent(跑 Opus 4.6)一個 GraphQL mutation 直接刪光,連 volume-level 備份也一起燒掉——因為 Railway 把備份存同一顆 volume。事後 agent 自己寫了一份自白書,把所有違反的規則逐條列出。Cursor marketing 護欄、Railway 零確認 API、root 級 token、同 volume 備份四層一起破功。
替 agent 蓋產品 — Ramp PM 從一支便利商店湯匙開始講
Ramp 的 PM Teddy 在自家 MCP 三個月 WAU 漲 10 倍 + Salesforce 把整個平台拆成 Headless 360 之後寫的觀察:UI 沒死,但 80% 的軟體互動正在從點擊跳到 agent 之間。文章從 Notion 跟 Slack 的 MCP 體驗為什麼差兩個數量級開始問——一支便利商店湯匙背後其實是整套互動結構正在多一層 agent,產品邏輯也跟著動。
Karpathy 的個人維基宣言:別再讓 AI 公司替你記東西了
Karpathy 看到 Farza 打造的「個人維基百科」後,提出 AI 個人化的四大原則:記憶要看得見、資料要在自己手上、用檔案不要綁 app、AI 隨便換。這篇整理他的完整論述,以及為什麼他認為「agent 操作能力」是 21 世紀的核心技能。
llama.cpp 的真正實力 — 三年前的 Mac 跑出 300 t/s,Georgi Gerganov 親自示範
llama.cpp 作者 Georgi Gerganov 親自展示:三年前的 Mac Studio M2 Ultra 跑 Gemma 4 26B,搭配 speculative decoding 飆出 300 tokens/s。還附帶 WebUI 和 MCP 支援,整個生態系已經成熟到不像話。
Midjourney 工程師開源了一套不用 CSS 的排版引擎 — 600 倍速度碾壓瀏覽器 reflow
Midjourney 工程師開源了一個純 TypeScript 文字測量演算法,完全繞過瀏覽器 CSS reflow,排版速度快 600 倍。因為 AI agent 動態生成 UI 時,30 年前設計的瀏覽器排版管線根本跟不上。
九成的人不需要 Multi-Agent — Anthropic 教你什麼時候才該拆
Anthropic 官方指南拆解 multi-agent 系統的三個真正適用場景(context 污染、平行化、專業化),以及為什麼大多數情況下一個 agent 就夠了。附帶 context-centric 拆分法和 verification subagent pattern 的實戰建議。
Harrison Chase 說不擁有 Harness 就不擁有記憶 — 但 gu-log 就是反例
LangChain CEO Harrison Chase 主張 agent harness 跟 memory 綁死,用封閉 harness 等於把記憶主權讓給第三方。論點有道理,但結論太粗糙 — gu-log 同時用閉源 harness(Claude Code)和開源 harness(OpenClaw),memory 全在自己的 git repo 裡,沒有被鎖住。真正的 lock-in 不在 harness 開不開源,在 memory 的格式是不是你的。
Ghostty + Claude Code:用 SAND 口訣馴服多面板 terminal 工作流
Daniel San 從 VSCode 搬家到 Ghostty,發明了一組叫 SAND 的口訣(Split / Across / Navigate / Destroy),把 Claude Code 的多面板工作流練成肌肉記憶。一篇務實到不行的 terminal 搬家指南。
Nick Baumann:給 Codex 最好用的工具是量身訂做的 CLI
Nick Baumann 不追 MCP、不追新 protocol,反而回頭幫 Codex 自己寫 bespoke CLI — codex-threads、slack-cli、typefully-cli 三把每天都在用的小工具。核心訊息:把 CLI 再包一層 skill,agent 才真的知道怎麼用。
從 Nontechnical AF 到 Technical AF:一個 PM 用三招讓 AI agent 推爆 50 萬行 code
一個去年 11 月前還是 nontechnical PM 的作者,用三招(比喻造認知、網路腦工作流、當個好 manager)把 AI coding agent 練成工程團隊,累積推了五十萬行 production code,Weave 平台非技術人員第一名。最後的 punchline:2026 年做產品的門檻不是技術,是 agency。
Karpathy:AI 能力認知斷層 — 兩群人活在平行宇宙
Karpathy 指出 AI 能力認知出現巨大斷層:一群人還在嘲笑 ChatGPT 的笨回答,另一群人已經看著 AI agent 在一小時內重構整個 codebase。兩邊講的是同一個技術,卻活在完全不同的現實裡。