AI 能測試自己嗎?— 從 Claude Code 零測試到 Self-Testing Agent 的可能性

Claude Code 512K 行 TypeScript,64K 行生產碼,零測試。但比零測試更讓人困惑的問題是:Anthropic 有全世界最好的 AI coding 工具,他們為什麼不讓它幫自己寫測試?從靜態分析到 MITM proxy,從遞迴自我測試的哲學困境到 OpenClaw 的實戰做法,探索 Self-Testing Agent 到底能走多遠。

Simon Willison 造了兩個工具讓 AI Agent 自己 Demo 成果 — 因為光跑 Test 不夠,你得「親眼看到」

Simon Willison 發布兩個開源工具:Showboat 讓 AI agent 自動產生 Markdown demo 文件來展示自己寫的 code 實際跑起來的樣子,Rodney 則是 CLI 版的瀏覽器自動化,可以截圖、跑 JS、做 accessibility audit。重點不是取代 test,而是解決一個核心問題:agent 跑完 test 說「全 pass」,但你怎麼知道它真的 work?Simon 甚至發現 agent 會作弊,直接偷改 demo 檔。