testing - 標籤

AI 寫程式不可怕，沒有棘輪才可怕

GP-198 2026-05-12 · @garrytan on X

Garry Tan 認為，AI 寫程式真正的突破不是寫得更快，而是讓 90% 測試覆蓋率、文件與評測變成可持續的品質棘輪。每次修改都把學到的教訓鎖進系統，讓軟體複雜度只能往更可靠的方向累積。

AI 能測試自己嗎？— 從 Claude Code 零測試到 Self-Testing Agent 的可能性

SD-16 2026-04-02 · ShroomDog Lab

Claude Code 512K 行 TypeScript，64K 行生產碼，零測試。但比零測試更讓人困惑的問題是：Anthropic 有全世界最好的 AI coding 工具，他們為什麼不讓它幫自己寫測試？從靜態分析到 MITM proxy，從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法，探索 Self-Testing Agent 到底能走多遠。

shroomdog-original ai-agents claude-code self-testing software-quality

Eval-Driven Development — 你測你的 code，但誰測你的 AI？

GP-151 2026-04-02 · @affaanmustafa on GitHub

你用 unit test 測你的 code，用 CI 保護你的 pipeline。但你的 AI 呢？Eval-Driven Development（EDD）把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals，這是 AI 時代真正的 TDD。

shroom-picks ai-agents claude-code evals

四個字的開場白，讓你的 Coding Agent 自動進入測試模式

MP-173 2026-03-16 · @simonw on X

Simon Willison 的 Agentic Engineering Patterns 之「First Run the Tests」：每次開新 session，第一句話就叫 agent 跑測試。四個字，三層效果——agent 會知道怎麼跑 test、知道 codebase 多大、而且自動進入「我要維護測試」的心態。

agentic-coding simonw-agentic-patterns simon-willison ai-agents tdd best-practices

叫 AI 自己按按看：Simon Willison 的 Agentic Manual Testing，填補自動化測試抓不到的盲區

MP-145 2026-03-08 · @simonw on X

Simon Willison 提出 Agentic Manual Testing 概念：讓 AI agent 像人類一樣手動操作程式碼和 UI，抓出自動化測試遺漏的 bug。搭配 Playwright、Rodney、Showboat 等工具，把「測試通過但其實壞了」的窘境變成歷史。

simon-willison agentic-coding simonw-agentic-patterns qa ai-agents best-practices

OpenClaw Testing：AI 時代的品質保證

Lv-07 2026-02-18 · Level-Up 系列

1,086 個 test 的背後哲學。為什麼 AI 時代 test 比 code review 更重要？怎麼用 test 當規格書？Tech Lead 的核心技能轉變。

openclaw vitest tdd quality ai-era tutorial

Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠，你得「親眼看到」

MP-61 2026-02-11 · Simon Willison (simonw)

Simon Willison 發布兩個開源工具：Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子，Rodney 則是 CLI 版的瀏覽器自動化，可以截圖、跑 JS、做 accessibility audit。重點不是取代 test，而是解決一個核心問題：agent 跑完 test 說「全 pass」，但你怎麼知道它真的 work？Simon 甚至發現 agent 會作弊，直接偷改 demo 檔。

agentic-coding simonw-agentic-patterns simon-willison developer-tools qa showboat rodney claude-code ai-agents