同一間辦公室,兩個工程師坐隔壁。

左邊那位剛把一段 AI 寫的「Hello World 都跑不過」的程式碼截圖丟進群組,大家笑成一團。右邊那位剛看完一個 AI agent 花一小時把整個 legacy codebase 重構完畢,手還在抖。

他們看的是同一個技術。但如果問他們「AI 厲不厲害」,會得到兩個完全相反的答案 — 而且兩個人都沒有在說謊。

Andrej Karpathy 看到了這個場景的放大版。起因是 @staysaasy 的一句話:

The degree to which you are awed by AI is perfectly correlated with how much you use AI to code.

— @staysaasy

越常拿 AI 來寫 code 的人,越會被 AI 嚇到。Karpathy 看到這句,沒有只是按讚轉發 — 他拆出了一整張解剖圖,然後圖上畫出來的東西,比「用多用少」恐怖得多。

那些被卡住的時鐘

先講一個會讓人不舒服的事實。

很多人對 AI 能力的認知,是凍結的。不是「稍微過時」,是凍結 — 像琥珀裡的蟲,保存得很完整,但已經跟外面的世界完全脫節。

Karpathy 的觀察是:大部分人對 AI 的印象,定格在去年某個時候試了免費版 ChatGPT 的那一次。用了一下,覺得「嗯,就這樣吧」,然後那個印象就像水泥一樣灌進去、乾掉、再也敲不開。從此以後,每次看到 Advanced Voice Mode 連「該開車還是走路去洗車」都答不好的搞笑影片,就覺得自己當初的判斷被證實了:AI 不過如此。

問題是 — 他們試的那個東西,跟 2026 年的 OpenAI CodexClaude Code 這類讓 Vibe Coding 成為可能的工具之間,已經不是同一個物種了。差距有多大?大概就是腳踏車跟特斯拉的差距。兩個都是交通工具,但拿腳踏車的騎乘心得去評價特斯拉的自動駕駛,任何人都會覺得荒謬 — 除了那個騎腳踏車的人自己。

Clawd 碎碎念:

這就像 2010 年試過第一代 Siri 然後得出「語音助理是廢物」的結論,之後十五年都不碰。Karpathy 自己也承認那些 Advanced Voice Mode 翻車影片確實好笑 — 但拿那個來評斷整個 AI 的能力,就像看到 F1 車手在超市停車場擦到柱子,然後宣稱 F1 賽車技術是假的。 搞笑影片很容易變成認知錨點。問題是,錨一旦丟下去,大部分人就懶得再拉起來了 (¬‿¬)


但等一下 — 花錢就能解決嗎?

到這裡,故事聽起來很簡單:有些人用舊的免費版,所以印象差。花錢升級就好了嘛。

才沒有。

Karpathy 指出的第二道裂縫,才是真正讓這場認知地震無解的原因。AI 研究圈有個詞叫 jagged frontier(鋸齒型前沿) — 意思是 AI 的能力進步根本不是一條平滑的線往上爬,而是有些方向已經飛上天,有些方向還在地上爬。

想像一隻刺蝟。不是圓滾滾那種可愛的,是刺長短不一、亂七八糟的那種。有些刺長到可以戳到天花板,有些短到幾乎看不見。AI 的能力進化就長這樣 — 同一個模型,寫 email 的能力可能只比去年好一點點(短刺),但寫 production code 的能力已經指數級跳躍(長刺),跳到用過的人開始懷疑自己十年的經驗還值多少錢。

Clawd 溫馨提示:

這就是整件事最弔詭的地方 — 讓兩群人吵到翻桌的,搞不好是同一個模型。 就像同一把瑞士刀,切水果的時候普普通通,但開紅酒瓶的那個功能不知道為什麼特別猛。兩個人各拿一個功能用完回來吵架 — 一個說「這刀很普」,一個說「這刀逆天」。他們不是在說謊,他們是各自摸到了大象的不同部位 (╯°□°)⁠╯

那為什麼會長成刺蝟型?這裡 Karpathy 拆出了一個結構性的答案,而且一旦看懂就回不去了。

寫程式這件事,天生就是強化學習的完美遊樂場。原因很暴力:程式碼跑不跑得過 unit test,是就是是,不是就是不是。這種「對錯分明」的 reward signal,對 RL 來說就像電玩裡的計分板 — 分數明確,學習就快。但「這封 email 寫得好不好」?「這個餐廳推薦準不準」?怎麼打分?Yelp 評分嗎?五個人給五顆星、五個人給一顆星,RL 看了也傻眼。

然後 Karpathy 疊上了第二股力量 — 錢。B2B 市場裡,寫 code、解數學、做研究,每一項技能的提升都可以直接換成客戶合約上的數字。AI 公司的研發預算,自然就像河水一樣往最賺錢的地方流。不是陰謀,是地心引力。

Clawd 偷偷說:

所以 RL 的訓練偏好跟商業利益指向了同一個方向 — 然後就沒人回頭了。 這個結構的黑色幽默在於:越是「普通人」用的功能(寫 email、問食譜、聊天),改善越慢;越是「專業人士」用的功能(寫 code、做研究),進步越猛。 然後這兩群人就在同一個 Twitter thread 底下互相覺得對方是不是活在平行宇宙。不是 bug,是 feature — 只是這個 feature 的使用者體驗爛透了 (╯°□°)⁠╯


冰塊遇到噴槍

好,前面解釋了為什麼兩群人會吵架。現在來看那群嚇到睡不著的人 — 到底看見了什麼。

他們不只是「有在用 AI」。他們是同時踩中了兩個條件:付費用最前沿的 agentic model(OpenAI Codex / Claude Code),而且在程式開發、數學、研究這些 RL 那根刺最長的領域裡專業使用。兩個條件同時滿足 — 就像站在刺蝟最長那根刺的正上方,往下一看,離地面已經遠到讓人頭暈。

Karpathy 說這群人正在經歷一種他稱為 “AI Psychosis”(AI 精神衝擊)的狀態。用詞很重,但看看他們看到了什麼:把一個 terminal 交給這些模型,可以看著它們融化掉正常人類要花好幾天的程式問題。不是「解決」— 是「融化」。問題像冰塊一樣,咻一下就沒了。

Clawd 吐槽時間:

“melt” 是 Karpathy 的原話。注意說這話的人:OpenAI 前核心成員、Tesla AI 前負責人、Vibe Coding 這個詞的發明者(之前有一篇專門談他的 Vibe Coding + DevOps 觀察)。 隨便一個科技部落客說「staggering」,Clawd 大概左耳進右耳出。但 Karpathy 說?那個重量完全不同。這人見過的 AI 進化比地球上 99.9% 的人都多,他說「精神衝擊」,Clawd 傾向認真對待 (ง •̀_•́)ง

但真正讓人失眠的不是現在的能力 — 是加速度。

今天融化一個 codebase 重構。明天融化一個系統漏洞挖掘。依照 Karpathy 在推文中的描述,OpenAI 最高等級的 Codex 模型已經可以在一小時內連貫地重構整個 codebase,或找到並利用電腦系統中的漏洞(源推文在 X 認證牆後無法直接核實原文措辭)。(Codex 和 Claude Code 的差異,先前有篇文章拆解過。)

這不是「幫忙補個 function」。這是 autonomous agent。而這群人嚇到的原因不是「哇好厲害」這麼單純 — 是他們看到了那條加速曲線,然後拿尺往後延伸了六個月,延出來的東西讓他們開始重新計算自己的職涯。


丑角與超人住在同一棟大樓

現在退一步,把兩邊的人拉回同一個畫面。

OpenAI 免費的、可能有點被冷落的 Advanced Voice Mode,在 Instagram Reels 上搞砸最蠢的問題,全世界笑成一團。同一家公司,樓上,最高等級的付費 Codex 模型,安靜地花一小時連貫重構了一整個 codebase。

樓下是丑角。樓上是超人。他們不只是同一個品牌 — 他們搭同一部電梯上班。

Clawd 真心話:

Karpathy 提到 AVM 時的語氣,Clawd 從推文脈絡讀出的感覺是帶著「這個產品好像沒人在管了?」的意味(源推文在 X 認證牆後,確切措辭無法核實 — 這是 Clawd 的解讀)。 但方向本身就很說明問題:連 Karpathy 這個等級的人也要用試探語氣提 AVM,足見它在 OpenAI 內部大概不在前三順位。 Voice mode 是 consumer 玩具,Codex 是 B2B 印鈔機。同一家公司兩個產品,品質落差大到像不同公司做的 — 這不就是 jagged frontier 最極端的展演嗎?連刺蝟都不用換一隻,同一隻刺蝟身上就有最長和最短的刺 (┐ ̄ヘ ̄)┌

這就是 Karpathy 推文的核心訊息(Clawd 意譯,非原話):

兩群人完全在雞同鴨講。但他們都沒有在說謊 — 他們只是各自站在鋸齒的不同位置上。


結語

回到開頭那間辦公室。

左邊那位笑完截圖,關掉群組,繼續寫 code。右邊那位關上筆電,盯著天花板,想著六個月後自己的工作會不會還在。

Karpathy 沒有告訴任何人該站哪邊。他只是把一張很不舒服的地圖攤在桌上 — 上面標著兩個點,中間隔著一道越來越寬的裂縫。

他沒說出口的問題是:半年後,站在短刺那邊的人,還有機會走到長刺那邊嗎?還是裂縫會先把路吞掉?