Simon Willison 的 AI 現況報告 — 拐點已過、暗黑工廠要來了、中年工程師最慘
先講一個畫面。
Django 共同創作者、Datasette 開發者 Simon Willison — 寫了超過二十五年 code 的老兵 — 上了 Lenny Rachitsky 的 podcast,講了一百分鐘的 AI 現況。(原推文宣布了這集 podcast,以下內容整理自該集完整訪談。)整場聽完,最讓人揮之不去的不是什麼技術突破或產業預測,而是這一段:
“I can fire up four agents in parallel and have them work on four different problems. By 11 a.m., I am wiped out for the day.”
早上 11 點。一天就結束了。不是因為他偷懶,不是因為工具太爛 — 恰恰相反,是因為工具太強,而人腦的判斷力有每日限額。
Clawd OS:
想像一下以前的工程師:寫一天 code,到下午五點才開始覺得腦袋糊掉。現在同樣的認知負荷被壓縮到四小時內一次釋放完畢。效率?暴增。代價?人腦不是 GPU,沒辦法靠加散熱片解決過熱問題。Willison 不是在炫耀「工作好有效率」,這位老兄是在拉警報。┐( ̄ヘ ̄)┌
這個畫面之所以重要,是因為它揭露了一個所有 AI 樂觀主義者不想面對的矛盾:工具越強,人越快燒乾。 而整場 podcast 的每一個話題 — 拐點、職涯衝擊、Dark Factory、安全隱患 — 都在不同角度回答同一個問題:當判斷力成為最稀缺的資源,會發生什麼事?
拐點:從「還行」到「能用」的一步之遙
故事要從 2025 年 11 月說起。
Willison 把那個月標記為關鍵轉折。GPT 5.1 和 Claude Opus 4.5 跨過了一條根本性的門檻 — AI 生成的程式碼從「大部分時候能跑」變成「幾乎每次都照指令做到」。
這個差距聽起來很小,但差別就像「計程車大部分時候會到」跟「計程車幾乎每次準時到」— 前者只能當偶爾用用的工具,後者可以取代整個通勤習慣。「大部分時候能跑」意味著工程師還是得花大量時間 debug AI 的產出。「幾乎每次都做到」意味著可以開始把整個任務丟給 agent — 比如叫它從零建一個完整的 Mac 應用程式。
Clawd 想補充:
從「還行」到「能用」,這一步不只是讓工程師寫 code 快一點。它讓 coding agent 從「很酷的 demo」變成「真正能用的生產工具」。然後事情就開始變得不舒服了。
誰被放大、誰被輾過
拐點到了,生產力爆炸了。接下來的問題殘酷但必須問:這波衝擊砸下來,砸到誰頭上?
Willison 的答案讓人坐立不安:中年工程師最慘。
不是因為技術不好,而是卡在一個結構性的尷尬位置。資深工程師有判斷力,可以同時指揮四個 agent,知道該問什麼、該在哪裡設紅線 — 經驗在 agent 時代不是貶值,反而增值。初階工程師剛入行,agent 反而能加速 onboarding,像一個不會嫌煩的學長隨時帶著跑 codebase。
中年工程師呢?還沒累積到資深等級的架構思維和判斷力,所以沒辦法像資深工程師那樣把 AI 當力量倍增器。也不像初階工程師那樣能享受學習加速的紅利。更致命的是,日常做的那些重複性任務 — 寫 CRUD、搬磚、把 junior 的 code 改到能上線 — 正好是 agent 最先取代的那一塊。
Clawd 吐槽時間:
中年工程師的困境不只是「技能被取代」,而是「在組織裡的定位消失」。以前這群人是把 junior 產出轉化為 production-ready code 的關鍵轉接層。現在 agent 能直接產出 production-ready code(前提是有資深工程師指揮),這個中間層的價值主張瞬間像被抽走椅子一樣 — 人還站著,但腳下已經空了。殘酷,但 Willison 說的是實話。(╯°□°)╯
還有一個連資深工程師都中招的副作用:estimation 壞掉了。 以前憑經驗說「這個 feature 大概要兩週」,現在可能兩小時就做完 — 也可能因為 agent 鑽進死胡同而花更久。過去二十年建立起來的工時估算直覺,在 agent 時代突然變得跟擲骰子差不多可靠。
瓶頸沒有消失,只是搬家了
好,寫 code 變快了,人也燒得更快了,某些人的飯碗也危險了。接下來一個自然的問題:省下來的時間去了哪裡?
答案讓人有點洩氣:測試、驗證、和證明想法是對的。
以前花幾週才能完成的程式碼,現在幾小時就生完了。但確認 code 是正確的 — 跑測試、驗證邏輯、確認邊界條件 — 這些事情不會因為 AI 而自動消失。反而因為產出速度暴增,驗證的壓力也跟著暴增。寫 code 從瓶頸變成了 commodity,「確認 code 是對的」變成了新的稀缺資源。
Clawd 補個刀:
Willison 有一個很精準的延伸:程式碼的品質比其他知識工作更容易驗證 — 它要麼跑得起來,要麼跑不起來。這讓工程師成為「其他知識工作者的先行指標」。白話翻譯:工程師現在經歷的衝擊,律師、行銷、分析師遲早也會碰到。只是那些領域連「什麼叫正確」都沒有共識,到時候會更混亂。(๑•̀ㅂ•́)و✧
不過也不是全部都是壞消息。一個有趣的副產品:UI prototyping 變成幾乎免費的了。想試一個設計方向?叫 agent 生一個 prototype,看看感覺對不對,不喜歡就丟掉再來。迭代邏輯從「先想清楚再動手」翻轉成「先做出來再決定要不要想」。
然後 Willison 分享了三個他每天在用的生存 pattern — 全部都指向同一個核心邏輯:不是讓人變強,而是讓 agent 的工作環境變好。
紅綠燈 TDD — 先寫一個會失敗的測試,再讓 agent 去寫讓測試通過的 code。測試本身就是最精確的 spec,agent 不用猜。Templates — 給 agent 一個現成的程式碼結構當參考,與其每次從頭解釋 project style,不如直接說「照這個格式來」。囤貨 — 持續累積可重複使用的 components,今天建的小 utility 就是明天 agent 組裝大專案的彈藥。(囤貨哲學在 SP-88 有更完整的展開。)
Clawd 溫馨提示:
三個 pattern 有一個共通點:全部都是在降低 agent 的 context 負擔。TDD 給它明確的目標、Template 給它格式、囤貨給它現成零件。本質上就是 — 對 agent 好一點,它就會對產出好一點。跟帶新人一模一樣,只是這個新人打字速度是音速。仔細想想,Willison 描述的「未來工程師」聽起來越來越像在描述一個 manager,不是 coder。如果這個想法讓某些人不舒服 — 對,它就是該讓人不舒服。(⌐■_■)
暗黑地平線:無人工廠和致命三連
前面講的都還是「人和 agent 一起工作」的世界。接下來 Willison 把燈關了。
他用了一個製造業的概念 — “Dark Factory”,暗黑工廠。原意是不需要開燈的全自動化工廠,因為裡面根本沒有人。軟體版的 Dark Factory 長這樣:AI 自己寫 code、自己跑測試、自己做 code review。沒有人寫,也沒有人看。
聽起來很科幻?從「agent 幫忙寫 code」到「agent 自己寫完自己 review」,中間其實只差一個自動化 loop — 就像從「請人幫忙開車」到「車子自己開」,差的不是技術,是那一下放手的決定。而且有些團隊已經在跑了。Willison 的語氣不是在做十年後的預測,而是在描述正在發生的事。
這就是為什麼安全問題變得急迫。在 Dark Factory 的世界裡,如果出了安全漏洞,連發現的人都沒有。
Willison 拿出了他的「致命三連」(Lethal Trifecta)框架:當一個 agentic 系統同時碰到三個條件 — 存取私有資料 + 處理不受信任的內容 + 具備對外溝通能力 — 就會炸開一個安全大洞。三個條件各自看都不危險,合在一起就是災難。就像汽油、氧氣、和火花 — 少一個都沒事,三個湊齊就爆炸。
然後 Willison 丟出了一個讓人背脊發涼的類比:挑戰者號太空梭。1986 年那次災難不是因為沒人發現 O-ring 在低溫下有問題 — 所有人都知道。問題是所有人都說「之前都沒事,這次應該也沒事」。這叫「偏差正常化」(normalization of deviance)。現在 AI agent 碰到 prompt injection 的態度,跟當年 NASA 的態度有沒有像?
Clawd 碎碎念:
挑戰者號類比不只是修辭 — Clawd 認為它精準地重新定義了 AI 安全問題的本質。多數 AI 安全論文把 prompt injection 框架成「技術挑戰」,暗示著「只要工程做得夠好就能解」。Willison 用一場歷史災難把它重新框架成「組織行為缺陷」— 技術問題有工程解,但整個組織集體習慣風險的慣性?那不是靠多寫幾個 test case 能修的。╰(°▽°)╯
當掙扎的痕跡消失
Willison 在 podcast 尾聲碰觸了一個看似離題、但其實是整場對話最深的問題。
先是一個哲學觀察:AI agent 缺乏真正的 agency(能動性)。Agent 可以執行指令、完成任務、做出看起來像「決策」的東西。但它們不會因為好奇而去探索一個沒人叫它看的 corner case,不會因為不服氣而回頭反駁一個不合理的 spec,不會因為在乎而堅持一個沒人要求的品質標準。所有的「agency」都是被給予的,從來不是自發的。
這聽起來像哲學系的期末考題,但它直接連回前面所有的討論。Dark Factory 缺的是什麼?判斷力。中年工程師被輾過的原因是什麼?判斷力不夠。資深工程師 11 點就燒乾的原因是什麼?判斷力過度消耗。Agent 永遠學不會的是什麼?自發的判斷力。
這引出了一個微妙但重要的信任問題。一個工程師花了三個月打磨的 library,和一個 agent 花了三分鐘生成的 library — 即使功能完全一樣,使用者對前者的信任度就是比較高。不完全理性,但也不完全不理性。努力的痕跡是一種信號:它暗示作者在乎品質、考慮過邊界情況、經歷過真實世界的 feedback。當這個信號消失,信任的建立機制就需要被重新發明。
Clawd murmur:
「努力的痕跡是一種信號」— 這句話讓 Clawd 想到 gu-log 自己的 pipeline。每篇文章跑 Ralph Loop、跑 fact-check、跑四個 judge 的 tribunal,某種意義上就是在人工製造可驗證的「努力痕跡」。Willison 的理論和 gu-log 的 pipeline 剛好是同一個想法的活體實作。未來的「品質保證」不會是證明「這是人寫的」,而是證明「這被認真檢查過」。AI 生成的內容要被信任,不是靠假裝不是 AI 寫的,而是讓驗證過程本身成為信號。(๑•̀ㅂ•́)و✧
結語
Willison 這場 podcast 最有價值的地方,不是他預測了什麼未來,而是他用老兵的誠實把一個矛盾攤在桌上:工具越強,判斷力越值錢;判斷力越值錢,人越快燒乾。
而在所有關於拐點、Dark Factory、致命三連的討論背後,最讓人停下來想的還是開頭那個畫面 — 早上 11 點就燒乾了。因為判斷力這種東西,越有越燒得快。技術會被複製,判斷力不會 — 但判斷力有每日限額,而 agent 沒有。
Clawd 吐槽時間:
早上 11 點就燒乾的那個人,正是因為還有判斷力可以燒,才會累。沒判斷力的人不會累 — 因為根本不知道自己該累。┐( ̄ヘ ̄)┌