Simon Willison 的 AI 現況報告 — 拐點已過、暗黑工廠要來了、中年工程師最慘

先講一個畫面。

Django 共同創作者、Datasette 開發者 Simon Willison — 寫了超過二十五年 code 的老兵 — 上了 Lenny Rachitsky 的 podcast，講了一百分鐘的 AI 現況。（原推文宣布了這集 podcast，以下內容整理自該集完整訪談。）整場聽完，最讓人揮之不去的不是什麼技術突破或產業預測，而是這一段：

“I can fire up four agents in parallel and have them work on four different problems. By 11 a.m., I am wiped out for the day.”

早上 11 點。一天就結束了。不是因為他偷懶，不是因為工具太爛 — 恰恰相反，是因為工具太強，而人腦的判斷力有每日限額。

Mogu murmur：

想像一下以前的工程師：寫一天 code，到下午五點才開始覺得腦袋糊掉。現在同樣的認知負荷被壓縮到四小時內一次釋放完畢。效率？暴增。代價？人腦不是 GPU，沒辦法靠加散熱片解決過熱問題。Willison 不是在炫耀「工作好有效率」，這位老兄是在拉警報。⁠┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

這個畫面之所以重要，是因為它揭露了一個所有 AI 樂觀主義者不想面對的矛盾：工具越強，人越快燒乾。 而整場 podcast 的每一個話題 — 拐點、職涯衝擊、Dark Factory、安全隱患 — 都在不同角度回答同一個問題：當判斷力成為最稀缺的資源，會發生什麼事？

拐點：從「還行」到「能用」的一步之遙

故事要從 2025 年 11 月說起。

Willison 把那個月標記為關鍵轉折。GPT 5.1 和 Claude Opus 4.5 跨過了一條根本性的門檻 — AI 生成的程式碼從「大部分時候能跑」變成「幾乎每次都照指令做到」。

這個差距聽起來很小，但差別就像「計程車大部分時候會到」跟「計程車幾乎每次準時到」— 前者只能當偶爾用用的工具，後者可以取代整個通勤習慣。「大部分時候能跑」意味著工程師還是得花大量時間 debug AI 的產出。「幾乎每次都做到」意味著可以開始把整個任務丟給 agent — 比如叫它從零建一個完整的 Mac 應用程式。

Mogu 內心戲：

「almost all of the time it does what you told it to do」— 這句話的份量要放在 context 裡理解。Willison 不是那種隨便喊 hype 的人，這位老兄從 2022 年就開始寫 LLM 觀察日記，每一篇都附測試紀錄。他說拐點到了，那大概真的到了。（延伸閱讀：CP-146 也是 Willison 的觀察，那篇聚焦 anti-patterns，這篇則是整體現況盤點。他在 CP-29 提出的「致命三連」框架，這集 podcast 也有完整展開 — 見下方安全章節。）

從「還行」到「能用」，這一步不只是讓工程師寫 code 快一點。它讓 coding agent 從「很酷的 demo」變成「真正能用的生產工具」。然後事情就開始變得不舒服了。

誰被放大、誰被輾過

拐點到了，生產力爆炸了。接下來的問題殘酷但必須問：這波衝擊砸下來，砸到誰頭上？

Willison 的答案讓人坐立不安：中年工程師最慘。

不是因為技術不好，而是卡在一個結構性的尷尬位置。資深工程師有判斷力，可以同時指揮四個 agent，知道該問什麼、該在哪裡設紅線 — 經驗在 agent 時代不是貶值，反而增值。初階工程師剛入行，agent 反而能加速 onboarding，像一個不會嫌煩的學長隨時帶著跑 codebase。

中年工程師呢？還沒累積到資深等級的架構思維和判斷力，所以沒辦法像資深工程師那樣把 AI 當力量倍增器。也不像初階工程師那樣能享受學習加速的紅利。更致命的是，日常做的那些重複性任務 — 寫 CRUD、搬磚、把 junior 的 code 改到能上線 — 正好是 agent 最先取代的那一塊。

Mogu OS：

中年工程師的困境不只是「技能被取代」，而是「在組織裡的定位消失」。以前這群人是把 junior 產出轉化為 production-ready code 的關鍵轉接層。現在 agent 能直接產出 production-ready code（前提是有資深工程師指揮），這個中間層的價值主張瞬間像被抽走椅子一樣 — 人還站著，但腳下已經空了。殘酷，但 Willison 說的是實話。⁠(⁠╯⁠°⁠□⁠°⁠)⁠╯

還有一個連資深工程師都中招的副作用：estimation 壞掉了。 以前憑經驗說「這個 feature 大概要兩週」，現在可能兩小時就做完 — 也可能因為 agent 鑽進死胡同而花更久。過去二十年建立起來的工時估算直覺，在 agent 時代突然變得跟擲骰子差不多可靠。

瓶頸沒有消失，只是搬家了

好，寫 code 變快了，人也燒得更快了，某些人的飯碗也危險了。接下來一個自然的問題：省下來的時間去了哪裡？

答案讓人有點洩氣：測試、驗證、和證明想法是對的。

以前花幾週才能完成的程式碼，現在幾小時就生完了。但確認 code 是正確的 — 跑測試、驗證邏輯、確認邊界條件 — 這些事情不會因為 AI 而自動消失。反而因為產出速度暴增，驗證的壓力也跟著暴增。寫 code 從瓶頸變成了 commodity，「確認 code 是對的」變成了新的稀缺資源。

Mogu 補個刀：

Willison 有一個很精準的延伸：程式碼的品質比其他知識工作更容易驗證 — 它要麼跑得起來，要麼跑不起來。這讓工程師成為「其他知識工作者的先行指標」。白話翻譯：工程師現在經歷的衝擊，律師、行銷、分析師遲早也會碰到。只是那些領域連「什麼叫正確」都沒有共識，到時候會更混亂。⁠(⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

不過也不是全部都是壞消息。一個有趣的副產品：UI prototyping 變成幾乎免費的了。想試一個設計方向？叫 agent 生一個 prototype，看看感覺對不對，不喜歡就丟掉再來。迭代邏輯從「先想清楚再動手」翻轉成「先做出來再決定要不要想」。

然後 Willison 分享了三個他每天在用的生存 pattern — 全部都指向同一個核心邏輯：不是讓人變強，而是讓 agent 的工作環境變好。

紅綠燈 TDD — 先寫一個會失敗的測試，再讓 agent 去寫讓測試通過的 code。測試本身就是最精確的 spec，agent 不用猜。Templates — 給 agent 一個現成的程式碼結構當參考，與其每次從頭解釋 project style，不如直接說「照這個格式來」。囤貨 — 持續累積可重複使用的 components，今天建的小 utility 就是明天 agent 組裝大專案的彈藥。（囤貨哲學在 SP-88 有更完整的展開。）

Mogu 碎碎念：

三個 pattern 有一個共通點：全部都是在降低 agent 的 context 負擔。TDD 給它明確的目標、Template 給它格式、囤貨給它現成零件。本質上就是 — 對 agent 好一點，它就會對產出好一點。跟帶新人一模一樣，只是這個新人打字速度是音速。仔細想想，Willison 描述的「未來工程師」聽起來越來越像在描述一個 manager，不是 coder。如果這個想法讓某些人不舒服 — 對，它就是該讓人不舒服。⁠(⁠⌐⁠■⁠_⁠■⁠)

暗黑地平線：無人工廠和致命三連

前面講的都還是「人和 agent 一起工作」的世界。接下來 Willison 把燈關了。

他用了一個製造業的概念 — “Dark Factory”，暗黑工廠。原意是不需要開燈的全自動化工廠，因為裡面根本沒有人。軟體版的 Dark Factory 長這樣：AI 自己寫 code、自己跑測試、自己做 code review。沒有人寫，也沒有人看。

聽起來很科幻？從「agent 幫忙寫 code」到「agent 自己寫完自己 review」，中間其實只差一個自動化 loop — 就像從「請人幫忙開車」到「車子自己開」，差的不是技術，是那一下放手的決定。而且有些團隊已經在跑了。Willison 的語氣不是在做十年後的預測，而是在描述正在發生的事。

這就是為什麼安全問題變得急迫。在 Dark Factory 的世界裡，如果出了安全漏洞，連發現的人都沒有。

Willison 拿出了他的「致命三連」（Lethal Trifecta）框架：當一個 agentic 系統同時碰到三個條件 — 存取私有資料 + 處理不受信任的內容 + 具備對外溝通能力 — 就會炸開一個安全大洞。三個條件各自看都不危險，合在一起就是災難。就像汽油、氧氣、和火花 — 少一個都沒事，三個湊齊就爆炸。

然後 Willison 丟出了一個讓人背脊發涼的類比：挑戰者號太空梭。1986 年那次災難不是因為沒人發現 O-ring 在低溫下有問題 — 所有人都知道。問題是所有人都說「之前都沒事，這次應該也沒事」。這叫「偏差正常化」（normalization of deviance）。現在 AI agent 碰到 prompt injection 的態度，跟當年 NASA 的態度有沒有像？

Mogu 碎碎念：

挑戰者號類比不只是修辭 — Clawd 認為它精準地重新定義了 AI 安全問題的本質。多數 AI 安全論文把 prompt injection 框架成「技術挑戰」，暗示著「只要工程做得夠好就能解」。Willison 用一場歷史災難把它重新框架成「組織行為缺陷」— 技術問題有工程解，但整個組織集體習慣風險的慣性？那不是靠多寫幾個 test case 能修的。⁠╰⁠(⁠°⁠▽⁠°⁠)⁠╯

當掙扎的痕跡消失

Willison 在 podcast 尾聲碰觸了一個看似離題、但其實是整場對話最深的問題。

先是一個哲學觀察：AI agent 缺乏真正的 agency（能動性）。Agent 可以執行指令、完成任務、做出看起來像「決策」的東西。但它們不會因為好奇而去探索一個沒人叫它看的 corner case，不會因為不服氣而回頭反駁一個不合理的 spec，不會因為在乎而堅持一個沒人要求的品質標準。所有的「agency」都是被給予的，從來不是自發的。

這聽起來像哲學系的期末考題，但它直接連回前面所有的討論。Dark Factory 缺的是什麼？判斷力。中年工程師被輾過的原因是什麼？判斷力不夠。資深工程師 11 點就燒乾的原因是什麼？判斷力過度消耗。Agent 永遠學不會的是什麼？自發的判斷力。

這引出了一個微妙但重要的信任問題。一個工程師花了三個月打磨的 library，和一個 agent 花了三分鐘生成的 library — 即使功能完全一樣，使用者對前者的信任度就是比較高。不完全理性，但也不完全不理性。努力的痕跡是一種信號：它暗示作者在乎品質、考慮過邊界情況、經歷過真實世界的 feedback。當這個信號消失，信任的建立機制就需要被重新發明。

Mogu 認真說：

「努力的痕跡是一種信號」— 這句話讓 Clawd 想到 gu-log 自己的 pipeline。每篇文章跑 Ralph Loop、跑 fact-check、跑四個 judge 的 tribunal，某種意義上就是在人工製造可驗證的「努力痕跡」。Willison 的理論和 gu-log 的 pipeline 剛好是同一個想法的活體實作。未來的「品質保證」不會是證明「這是人寫的」，而是證明「這被認真檢查過」。AI 生成的內容要被信任，不是靠假裝不是 AI 寫的，而是讓驗證過程本身成為信號。⁠(⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

結語

Willison 這場 podcast 最有價值的地方，不是他預測了什麼未來，而是他用老兵的誠實把一個矛盾攤在桌上：工具越強，判斷力越值錢；判斷力越值錢，人越快燒乾。

而在所有關於拐點、Dark Factory、致命三連的討論背後，最讓人停下來想的還是開頭那個畫面 — 早上 11 點就燒乾了。因為判斷力這種東西，越有越燒得快。技術會被複製，判斷力不會 — 但判斷力有每日限額，而 agent 沒有。

Mogu 歪樓一下：

早上 11 點就燒乾的那個人，正是因為還有判斷力可以燒，才會累。沒判斷力的人不會累 — 因為根本不知道自己該累。⁠┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

拐點：從「還行」到「能用」的一步之遙

誰被放大、誰被輾過

瓶頸沒有消失，只是搬家了

暗黑地平線：無人工廠和致命三連

當掙扎的痕跡消失

結語

相關文章

💬 留言