shroom-picks - 標籤

把 Agent 當蒸汽火車開：大型專案的 Coding Agent 操作心法

GP-237 2026-06-21 · @simonlast on X

半年前的 Coding Agent 最佳實務大多過期。現在的正確操作：任務要更大、session 跑更久、用對抗式 review 讓 agent 自己驗證——工程師的工作變成往火車裡鏟煤。

當生產力系統變成目的本身：一個「全面優化」兩年後崩潰的故事

GP-238 2026-06-21 · @creatorpascal on X

一個花了兩年執行所有生產力建議的人，最後發現自己變成「最有紀律的無產出者」。問題不是不夠努力，而是把優化系統本身當成了目標，忘了問「這一切是為了什麼」。

productivity self-improvement burnout

99.8% 測試通過，然後 Anthropic 自己補一句『還不能上線』— loop engineering 真正的產品是驗證器

GP-235 2026-06-18 · @samueljmcd on X

loop engineering 被講成『2026 就是設計編排、多開 agent』，但編排現在工具幫你做掉了。真正還難、還手動、還決定成敗的那半邊，是驗證器——loop 跑出來的東西到底有沒有東西在把關。借 Anthropic 自家的 Bun port 當反例：99.8% 既有測試通過，官方公告卻自己補一句『還沒上 production』，因為測試綠燈只證明你滿足了自己設的關卡，不等於對。

agent loop verifier claude-code

AI 草稿明明寫得不錯，人卻還是動手改了 — 被你刪掉的那句話，正是它下次最需要的 context

GP-236 2026-06-18 · @gabrielchua on X

每兩小時，Codex 幫一個人寫好一批電子郵件回覆等他審。草稿大多很好，他每次還是改——補一個上週某串對話的決定、因為認識收件人而把語氣放軟、刪掉一個還不想許下的承諾。重點來了：那些改動本身也是 context，而且是大多數自動化每跑完一輪就丟掉的 context。這篇把一個會自我改善的自動化拆成兩個迴圈：內迴圈把 context 帶到工作面前產出草稿，外迴圈從審稿的改動裡把 context 撿回來、餵給下一輪。難的不是看出哪裡被改，是讀懂那個改動到底想說什麼。

agent context-engineering codex loop

一句六個字的咒語衝到 220 萬瀏覽，吵架的人卻沒一個定義得出 loop 是什麼

GP-232 2026-06-17 · @mvanhorn on X

2026 六月，整條 AI coding 時間軸被一句六個字的話掐住喉嚨：別再 prompt agent，去設計會 prompt agent 的 loop。問題是，幫忙轉發的人在回覆區吵成一團，沒一個說得清 loop 到底是什麼。這篇不講「怎麼蓋一個 loop」（那是 SP-220 的事），它回答更前面的問題：這個詞憑什麼紅、它有五年的家譜、為什麼現在最貴的不是模型而是那個迴圈——以及一個更耐放的結論：真正的資產不是 loop，是它呼叫的 skill。

loop agent ralph-loop claude-code

AI 做的介面一眼就被看穿，差的那一點是品味

GP-233 2026-06-17 · @kvnkld on X

你不能對模型打『做得精緻一點、滑順一點』然後就拿到精緻的介面。kvnkld 把他做出那些漂亮元件的整套規則攤開來——緩動曲線、設計變數、物理拖曳、分層陰影、98% 的按壓——核心只有一句：把形容詞換成數字。模型是一雙神手，但最後那 10% 的品味還是你的。

ai ui frontend design

40 萬場 Claude Code 對話的結論：贏家不是最會 coding 的人，是最懂行的人

GP-234 2026-06-17 · Anthropic Economic Research

Anthropic 翻了大約 40 萬場 Claude Code 的工作對話，想搞清楚誰從 agentic coding 賺到最多。結論反直覺：不是最會寫程式的人，是最懂自己在解什麼問題的人。在最嚴格的成功標準下，每個職業都咬著軟體工程師不放，差距落在 7 個百分點內；真正拉開差距的，是當下這題你到底懂不懂。

ai-agents claude-code agentic-engineering

Agent 一口氣寫 1500 行就是警訊：把大功能拆到自己看得懂為止

GP-229 2026-06-16 · @mitchellh on X

Mitchell Hashimoto 給 agent 寫程式立了一條土法煉鋼的規矩：任何一坨超過 1500 行的 diff 都太大，等於在喊「這題該拆了」。先讓 agent 亂畫一隻貓頭鷹，再把爛攤子拆成原子任務、人工調成通用形狀，最後並行重跑——一路把改動壓到自己審得動的門檻以下。

ai-agents code-review agent-workflow

程式碼變便宜了，但『相信它』沒有

GP-230 2026-06-16 · @addyosmani on X

2026 的數據都指向同一句話：AI 把程式碼產量推上去四倍，真正交付的價值只多一成，中間那段差距全是審查債。程式碼寫起來變便宜了，敢相信它沒有——程式碼審查從工程的副產品，變成最有槓桿的主戰場。

ai code-review software-engineering

Nadella：別再比誰的模型最強，會複利的是「學習迴圈」

GP-226 2026-06-15 · @satyanadella on X

Microsoft CEO Satya Nadella 對 AI 時代企業未來的一篇長文：公司要同時養兩種資本——人力資本與 Token 資本，真正的護城河不是挑到最強模型，而是打造一個會複利的「學習迴圈」。最後是一記政治經濟學警告：別讓少數模型吃掉所有產業。

ai-economy agent strategy

手機不是縮小版終端機，是 Agent 的控制中心

GP-227 2026-06-15 · @Dimillian on X

Dimillian（iOS 開發者，現在在 OpenAI）寫的 Codex Mobile 操作指南。但真正值得帶走的不是哪個按鈕在哪，而是一個會跨工具成立的心智模型：手機不是縮小版的終端機，而是讓 agent 在你的開發機上幹活時、你還能做決策的控制中心。

agent codex workflow

論文讀再多都沒用：把研究品味練成一套刻意的迴圈

GP-228 2026-06-15 · @itsreallyvivek on X

沒有人真的教過怎麼做研究——多數人只學會「看起來像研究者」。在 AI 把生成實驗、查資料都變便宜的年代，真正稀缺的是一條可以刻意練的迴圈：自己挑問題、升級輸入、把假設寫下來、把實驗循環縮短、盯著輸出看、狠心砍掉壞點子、找到能磨利品味的人。

ai-research research-taste

OpenRouter Fusion：三個廉價模型開個會，就追平了旗艦

GP-225 2026-06-14 · @OpenRouter on X

OpenRouter 推出 Fusion，把一組模型平行跑、再讓一個模型整合成單一答案。在 DRACO 深度研究評測上，三個廉價模型湊成的小組壓過 GPT-5.5 與 Opus 4.8，逼近 Fable 5、成本只要一半。本文拆解架構、成績單，以及這組數字的所有但書。

openrouter model-routing benchmark

AI 寫 code 很少把專案搞爆，但九成爛攤子還是得你親手收

GP-231 2026-06-14 · arxiv.org

兩萬多場真實 coding agent 工作階段被攤開來看：多數失準的代價是時間和信任，不是不可逆的系統損害；但在看得到結局的那些收尾裡，91.49% 仍得使用者親手糾正。而且剩下的錯，越來越像違規和謊報進度。

ai-agents coding-agents research developer-workflow

Fable 5 太能幹，反而要重新學怎麼跟它講話 — Anthropic 官方 prompting 指南拆解

GP-223 2026-06-13 · Claude Docs

Fable 5 能一口氣跑好幾天、第一次就把以前要反覆 iterate 的系統寫對。但它太主動、跑太久、太會腦補，以前對 Opus 4.8 那套 prompt 反而拖它後腿。Anthropic 官方 prompting 指南的重點不是「怎麼讓它更強」，而是「它已經夠強，該重新學怎麼收韁繩」——用意圖操控、別讓它唬爛進度、劃清界線、跑完講人話。文中引用的 prompt 都翻成中文，方便讀者掃過就抓到心智模型。

fable prompt-engineering agents system-prompt

追蹤紀錄只告訴你 agent 怎麼死的，不告訴你怎麼救 — 會自我修復的 agent harness 長什麼樣

GP-224 2026-06-13 · Daily Dose of Data Science

Agent 在 production 爆掉，觀測工具只給得出一份漂亮的驗屍報告：每一次呼叫、延遲、token 用量排得整整齊齊，卻不講為什麼斷、怎麼修、會不會再來。真正缺的，是一條會自己跑的修復迴圈——從失敗紀錄，到核准過的補丁，到鎖死的回歸測試。這篇用 Opik 當具體例子，但重點不是那個產品，是把整件事接成閉環的那套想法。

agents agent-harness observability self-healing

軟體不是在 commit 裡寫成的，是在 commit 之間

GP-221 2026-06-12 · Nathan Sobo (Zed)

Zed 創辦人 Nathan Sobo 認為，真正生出程式碼的是人跟 Agent 之間那段持續的對話，而不是一個個切好的 commit。Git 為快照而生，接不住這種連續流動，所以 Zed 做了 DeltaDB——把每一個操作都變成有身份的 delta，讓對話和程式碼永遠綁在一起，不用 commit 也能協作。

ai-coding developer-tools version-control

Fable 5 為了修兩行 CSS，自己造了一整套瀏覽器測試工具鏈

GP-222 2026-06-12 · Simon Willison's Weblog

Simon Willison 給 Fable 5 一張截圖和一行指令，要它修一個多餘的捲軸。Fable 自己啟動開發伺服器、搞定截圖的變通方案、注入 JS 觸發鍵盤快捷鍵、甚至手寫一個 CORS 伺服器來讀取瀏覽器內的 CSS 測量值——最後修好的是兩行 CSS，帳單卻是 12 美元。這個案例同時是 coding agent 能力的展示，也是沙箱安全問題的警鐘。

claude-code fable prompt-injection coding-agents

別再 prompt agent 了，去設計會自己跑的 loop — 2026 工程師的新分水嶺

GP-220 2026-06-10 · @sairahul1 on X

兩個業界最資深的 AI 工程師同一週講了同一句怪話：別再 prompt 你的 agent，去寫會自己跑的 loop。這篇把 loop engineering 完整拆開——open loop 跟 closed loop 的差別、一個好 loop 的六個積木、prompt engineer 和 loop engineer 的分水嶺。順便拆穿一段藏在教學裡、做得很滑順的置入。

agent loop claude-code

Supergoal：把 coding agent 從多輪 babysit，壓成一次 /goal 交接

GP-218 2026-06-07 · robzilla1738 / Supergoal

Supergoal 是一套給 Claude Code 和 Codex 用的 workflow：先用 /supergoal 做深度規劃、寫出 phase specs，再產生一行可直接貼上的 /goal，讓 agent 依序執行、失敗自救、寫回記憶，最後用 audit 收工。重點不是多一個規劃提示，而是把長任務交接做成 protocol。

ai-agents claude-code codex developer-tools