simon-willison
23 篇文章
三小時 workshop 講義直接公開:Simon Willison 把 coding agents 帶進資料工作流
Simon Willison 公開了他在 NICAR data journalism conference 的三小時 workshop handout,主題是怎麼把 coding agents 用在 data exploration、visualization 和 analysis。這是一份面向資料工作場景的實作型教學資源。
寫了 11 章才敢回答的問題:到底什麼是 Agentic Engineering?
Simon Willison 的 Agentic Engineering Patterns 指南加到第 12 章了,但這章排在系列最前面——他終於正式回答「什麼是 Agentic Engineering」。答案意外地簡潔:讓會跑 code 的 agent 幫你開發軟體。但真正有趣的是他花了 11 章實戰經驗後才敢下這個定義。
AI 寫的 Code 品質變差?那是你的選擇,不是 AI 的錯
Simon Willison 的 Agentic Engineering Patterns 第三章:AI 應該幫我們產出更好的 code,不是更差的。技術債的成本被 coding agent 壓到趨近零,你再也沒有藉口不 refactor。加上 agent 能平行跑 prototype,選架構不再是賭博。
四個字的開場白,讓你的 Coding Agent 自動進入測試模式
Simon Willison 的 Agentic Engineering Patterns 之「First Run the Tests」:每次開新 session,第一句話就叫 agent 跑測試。四個字,三層效果——agent 會知道怎麼跑 test、知道 codebase 多大、而且自動進入「我要維護測試」的心態。
Simon Willison 的 Agentic Engineering 爐邊對談:測試免費了、程式品質是你的選擇
Simon Willison 在 Pragmatic Summit 分享了他的 agentic engineering 實戰方法:五個 token 啟動 TDD、Showboat 做手動驗證、用六個框架反推出標準再實作、以及 code quality 是一個有意識的選擇。
AI 生了一千行,然後你就 merge 了?Simon Willison 點名 Agentic 開發最常見的爛習慣
Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。
叫 AI 自己按按看:Simon Willison 的 Agentic Manual Testing,填補自動化測試抓不到的盲區
Simon Willison 提出 Agentic Manual Testing 概念:讓 AI agent 像人類一樣手動操作程式碼和 UI,抓出自動化測試遺漏的 bug。搭配 Playwright、Rodney、Showboat 等工具,把「測試通過但其實壞了」的窘境變成歷史。
AI 生的 Code 看不懂?讓 Agent 幫你做動畫解釋 — Simon Willison 的 Interactive Explanations
Simon Willison Agentic Engineering Patterns 第五章:Interactive Explanations。核心主張:與其硬啃 AI 生成的 code,不如直接叫 agent 做一個互動動畫來解釋演算法運作方式。用「看得見」的方式還認知負債。
你會的東西都是武器 — Simon Willison 的「囤積式開發」哲學
Simon Willison Agentic Engineering Patterns 第四章:Hoard Things You Know How to Do。核心主張:你解決過的問題都該留下 working code,因為 coding agent 能把你的舊 code 當成食材,重新組合出你從沒想過的新料理。
你的電腦得一直開著:Simon Willison 記下 Claude Code Remote 遙控和 Cowork 排程
Simon Willison 試玩了兩個 Anthropic 新功能:Claude Code Remote Control(從手機遙控跑在 Mac 上的 coding session)和 Cowork Scheduled Tasks(幫 AI agent 排定時任務)。兩個功能都有同一個致命限制:電腦必須一直開著。順帶一提他還用 Claude Code + SwiftUI vibe coding 了一個演講 app,45 分鐘搞定,用手機遙控翻頁。
AI 寫的 Code 看不懂?Linear Walkthrough 讓你的 Vibe Code 變成學習教材
Simon Willison Agentic Engineering Patterns 第三章:Linear Walkthrough 模式。用這個技巧,即使是 vibe-coded 的玩具專案也能變成有價值的學習資料。核心技巧:叫 agent 用 sed/grep/cat 自己抓 code 片段,防止幻覺。
寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南
Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。
Simon Willison 把『分散內容』收編回主站:Beats 功能讓你的創作時間線變成個人內容 Graph
Simon Willison 為自己的 blog 加上『Beats』功能,把 TIL、GitHub releases、museum posts、tools、research 這些分散在外站的輸出,統一回收成同一條 timeline。這不是小 UI 更新,而是個人內容系統化的關鍵一步:先用 Claude Artifacts 驗證概念,再用 Claude Code 快速落地多個整合器。
SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考
SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。
Simon Willison:CLI 工具完勝 MCP — 省 token、零依賴、LLM 天生就會用
Simon Willison 再次公開表態:CLI 工具在幾乎所有場景都比 MCP 更好。省 token、零額外依賴、LLM 天生就會呼叫 --help。Anthropic 自己也提出了 code-execution-with-MCP 的「第三條路」,承認 MCP 的 token 浪費問題。本文拆解 MCP vs CLI 的完整 trade-off,並附上 ShroomDog 團隊的真實案例。
Deep Blue:Simon Willison 為開發者的 AI 存在危機取了一個名字
當 AI 開始寫出比你更好的 code,你的職業生涯突然感覺像是建立在沙灘上。Simon Willison 和 Oxide and Friends podcast 的 Adam Leventhal 為這種感覺取了一個名字:Deep Blue。雙關語——既是那台 1997 年擊敗 Kasparov 的西洋棋電腦,也是你心底深處的憂鬱(blue)。這不是技術問題,這是一整個世代工程師的心理危機。
Cognitive Debt:AI 幫你寫完了 Code,但你已經看不懂自己的系統了
Technical debt 住在 code 裡,你可以重構、可以還。但 Cognitive Debt 住在你的腦袋裡——當 AI Agent 幫你寫了 80% 的 code,你對自己系統的理解卻掉到 20%。UVic 教授 Margaret-Anne Storey 從 Thoughtworks 閉門會議帶回這個概念,Simon Willison 和 Martin Fowler 同時背書。這不是假想的未來,而是現在進行式。
Simon Willison 挖出 OpenAI 的報稅紀錄 — 他們的使命聲明怎麼從「開放共享」變成「賺錢至上」
Simon Willison 從美國 IRS(國稅局)的報稅資料中,挖出了 OpenAI 從 2016 到 2024 年的使命聲明。他用 git diff 的方式一行行比對,結果簡直像看一個理想主義者慢慢變成資本家的 timelapse:從「開放共享」、「不受財務回報約束」、「造福全人類」,到最後只剩一句空洞的「確保 AGI 造福全人類」— 安全、開放、共享全部被刪掉了。
OpenAI API 正式支援 Skills — Simon Willison 拆解這個讓 Agent 自帶「技能包」的新功能
OpenAI 的 Responses API 現在可以透過 shell tool 掛載 Skills — 把可重複使用的工作流程(指令 + 腳本 + 資源檔)打包成 zip,讓模型在需要時才載入執行。Simon Willison 用他新開發的 Showboat 工具實測了這個 API,發現最酷的是可以直接在 JSON request 裡用 base64 傳 inline skill,不用先上傳。Skills 本質上是 system prompt、tool、和 procedure 之間的「中間層」,解決了把所有流程都塞進 system prompt 會越塞越肥的痛點。
智譜開源 GLM-5:744B 參數、1.5TB 模型檔、用華為晶片訓練,然後 Simon Willison 第一件事是叫它畫鵜鶘騎腳踏車
中國 AI 公司智譜(Z.ai)開源旗艦模型 GLM-5,744B 參數(MoE 架構,每次推理只啟用 40B),在 HuggingFace 上的模型檔高達 1.51TB。更勁爆的是全程用華為 Ascend 晶片訓練,不靠 NVIDIA。Simon Willison 拿到後第一件事就是用他的招牌 prompt「畫一隻鵜鶘騎腳踏車」來測試。鵜鶘畫得不錯,但腳踏車嘛⋯⋯
Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠,你得「親眼看到」
Simon Willison 發布兩個開源工具:Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子,Rodney 則是 CLI 版的瀏覽器自動化,可以截圖、跑 JS、做 accessibility audit。重點不是取代 test,而是解決一個核心問題:agent 跑完 test 說「全 pass」,但你怎麼知道它真的 work?Simon 甚至發現 agent 會作弊,直接偷改 demo 檔。
HBR 研究:AI 不是幫你減少工作 — 而是讓你「更拚命工作」直到燒乾
Berkeley Haas 商學院兩位教授花了 9 個月研究 200 名美國科技公司員工,結論是:AI 工具不會減輕你的工作量,反而讓你做得更快、接更多任務、工時更長——而且你自己還渾然不覺。Simon Willison 也坦言自己用 LLM 一兩個小時就精力耗盡。當「再一個 prompt 就好」變成新型態的加班,Tech Lead 該怎麼保護團隊?
StrongDM 的「暗黑工廠」:Code 不給人寫、也不給人看,每天燒 $1,000 token 費
StrongDM 的三人 AI 團隊打造了一個「Software Factory」——程式碼不給人寫、不給人 review,全部交給 coding agent。他們用 Digital Twin Universe 克隆了 Okta、Jira、Slack 等服務來跑大規模測試。Simon Willison 說這是他見過最激進的 AI 開發模式。但每個工程師每天 $1,000 的 token 費...你確定?