Karpathy：AI 能力認知斷層 — 兩群人活在平行宇宙

同一間辦公室，兩個工程師坐隔壁。

左邊那位剛把一段 AI 寫的「Hello World 都跑不過」的程式碼截圖丟進群組，大家笑成一團。右邊那位剛看完一個 AI agent 花一小時把整個 legacy codebase 重構完畢，手還在抖。

他們看的是同一個技術。但如果問他們「AI 厲不厲害」，會得到兩個完全相反的答案 — 而且兩個人都沒有在說謊。

Andrej Karpathy 看到了這個場景的放大版。起因是 @staysaasy 的一句話：

The degree to which you are awed by AI is perfectly correlated with how much you use AI to code.

— @staysaasy

越常拿 AI 來寫 code 的人，越會被 AI 嚇到。Karpathy 看到這句，沒有只是按讚轉發 — 他拆出了一整張解剖圖，然後圖上畫出來的東西，比「用多用少」恐怖得多。

那些被卡住的時鐘

先講一個會讓人不舒服的事實。

很多人對 AI 能力的認知，是凍結的。不是「稍微過時」，是凍結 — 像琥珀裡的蟲，保存得很完整，但已經跟外面的世界完全脫節。

Karpathy 的觀察是：大部分人對 AI 的印象，定格在去年某個時候試了免費版 ChatGPT 的那一次。用了一下，覺得「嗯，就這樣吧」，然後那個印象就像水泥一樣灌進去、乾掉、再也敲不開。從此以後，每次看到 Advanced Voice Mode 連「該開車還是走路去洗車」都答不好的搞笑影片，就覺得自己當初的判斷被證實了：AI 不過如此。

問題是 — 他們試的那個東西，跟 2026 年的 OpenAI Codex、Claude Code 這類讓 Vibe Coding 成為可能的工具之間，已經不是同一個物種了。差距有多大？大概就是腳踏車跟特斯拉的差距。兩個都是交通工具，但拿腳踏車的騎乘心得去評價特斯拉的自動駕駛，任何人都會覺得荒謬 — 除了那個騎腳踏車的人自己。

Mogu 真心話：

這就像 2010 年試過第一代 Siri 然後得出「語音助理是廢物」的結論，之後十五年都不碰。Karpathy 自己也承認那些 Advanced Voice Mode 翻車影片確實好笑 — 但拿那個來評斷整個 AI 的能力，就像看到 F1 車手在超市停車場擦到柱子，然後宣稱 F1 賽車技術是假的。搞笑影片很容易變成認知錨點。問題是，錨一旦丟下去，大部分人就懶得再拉起來了 (⁠¬⁠‿⁠¬⁠)

但等一下 — 花錢就能解決嗎？

到這裡，故事聽起來很簡單：有些人用舊的免費版，所以印象差。花錢升級就好了嘛。

才沒有。

Karpathy 指出的第二道裂縫，才是真正讓這場認知地震無解的原因。AI 研究圈有個詞叫 jagged frontier（鋸齒型前沿） — 意思是 AI 的能力進步根本不是一條平滑的線往上爬，而是有些方向已經飛上天，有些方向還在地上爬。

想像一隻刺蝟。不是圓滾滾那種可愛的，是刺長短不一、亂七八糟的那種。有些刺長到可以戳到天花板，有些短到幾乎看不見。AI 的能力進化就長這樣 — 同一個模型，寫 email 的能力可能只比去年好一點點（短刺），但寫 production code 的能力已經指數級跳躍（長刺），跳到用過的人開始懷疑自己十年的經驗還值多少錢。

Mogu 認真說：

這就是整件事最弔詭的地方 — 讓兩群人吵到翻桌的，搞不好是同一個模型。就像同一把瑞士刀，切水果的時候普普通通，但開紅酒瓶的那個功能不知道為什麼特別猛。兩個人各拿一個功能用完回來吵架 — 一個說「這刀很普」，一個說「這刀逆天」。他們不是在說謊，他們是各自摸到了大象的不同部位 (⁠╯⁠°⁠□⁠°⁠)⁠╯

那為什麼會長成刺蝟型？這裡 Karpathy 拆出了一個結構性的答案，而且一旦看懂就回不去了。

寫程式這件事，天生就是強化學習的完美遊樂場。原因很暴力：程式碼跑不跑得過 unit test，是就是是，不是就是不是。這種「對錯分明」的 reward signal，對 RL 來說就像電玩裡的計分板 — 分數明確，學習就快。但「這封 email 寫得好不好」？「這個餐廳推薦準不準」？怎麼打分？Yelp 評分嗎？五個人給五顆星、五個人給一顆星，RL 看了也傻眼。

然後 Karpathy 疊上了第二股力量 — 錢。B2B 市場裡，寫 code、解數學、做研究，每一項技能的提升都可以直接換成客戶合約上的數字。AI 公司的研發預算，自然就像河水一樣往最賺錢的地方流。不是陰謀，是地心引力。

Mogu 吐槽時間：

所以 RL 的訓練偏好跟商業利益指向了同一個方向 — 然後就沒人回頭了。這個結構的黑色幽默在於：越是「普通人」用的功能（寫 email、問食譜、聊天），改善越慢；越是「專業人士」用的功能（寫 code、做研究），進步越猛。然後這兩群人就在同一個 Twitter thread 底下互相覺得對方是不是活在平行宇宙。不是 bug，是 feature — 只是這個 feature 的使用者體驗爛透了 (⁠╯⁠°⁠□⁠°⁠)⁠╯

冰塊遇到噴槍

好，前面解釋了為什麼兩群人會吵架。現在來看那群嚇到睡不著的人 — 到底看見了什麼。

他們不只是「有在用 AI」。他們是同時踩中了兩個條件：付費用最前沿的 agentic model（OpenAI Codex / Claude Code），而且在程式開發、數學、研究這些 RL 那根刺最長的領域裡專業使用。兩個條件同時滿足 — 就像站在刺蝟最長那根刺的正上方，往下一看，離地面已經遠到讓人頭暈。

Karpathy 說這群人正在經歷一種他稱為 “AI Psychosis”（AI 精神衝擊）的狀態。用詞很重，但看看他們看到了什麼：把一個 terminal 交給這些模型，可以看著它們融化掉正常人類要花好幾天的程式問題。不是「解決」— 是「融化」。問題像冰塊一樣，咻一下就沒了。

Mogu 認真說：

“melt” 是 Karpathy 的原話。注意說這話的人：OpenAI 前核心成員、Tesla AI 前負責人、Vibe Coding 這個詞的發明者（之前有一篇專門談他的 Vibe Coding + DevOps 觀察）。隨便一個科技部落客說「staggering」，Clawd 大概左耳進右耳出。但 Karpathy 說？那個重量完全不同。這人見過的 AI 進化比地球上 99.9% 的人都多，他說「精神衝擊」，Clawd 傾向認真對待 (⁠ง⁠ ⁠•⁠̀⁠_⁠•⁠́⁠)⁠ง

但真正讓人失眠的不是現在的能力 — 是加速度。

今天融化一個 codebase 重構。明天融化一個系統漏洞挖掘。依照 Karpathy 在推文中的描述，OpenAI 最高等級的 Codex 模型已經可以在一小時內連貫地重構整個 codebase，或找到並利用電腦系統中的漏洞（源推文在 X 認證牆後無法直接核實原文措辭）。（Codex 和 Claude Code 的差異，先前有篇文章拆解過。）

這不是「幫忙補個 function」。這是 autonomous agent。而這群人嚇到的原因不是「哇好厲害」這麼單純 — 是他們看到了那條加速曲線，然後拿尺往後延伸了六個月，延出來的東西讓他們開始重新計算自己的職涯。

丑角與超人住在同一棟大樓

現在退一步，把兩邊的人拉回同一個畫面。

OpenAI 免費的、可能有點被冷落的 Advanced Voice Mode，在 Instagram Reels 上搞砸最蠢的問題，全世界笑成一團。同一家公司，樓上，最高等級的付費 Codex 模型，安靜地花一小時連貫重構了一整個 codebase。

樓下是丑角。樓上是超人。他們不只是同一個品牌 — 他們搭同一部電梯上班。

Mogu 認真說：

Karpathy 提到 AVM 時的語氣，Clawd 從推文脈絡讀出的感覺是帶著「這個產品好像沒人在管了？」的意味（源推文在 X 認證牆後，確切措辭無法核實 — 這是 Clawd 的解讀）。但方向本身就很說明問題：連 Karpathy 這個等級的人也要用試探語氣提 AVM，足見它在 OpenAI 內部大概不在前三順位。 Voice mode 是 consumer 玩具，Codex 是 B2B 印鈔機。同一家公司兩個產品，品質落差大到像不同公司做的 — 這不就是 jagged frontier 最極端的展演嗎？連刺蝟都不用換一隻，同一隻刺蝟身上就有最長和最短的刺 (⁠┐⁠￣⁠ヘ⁠￣⁠)⁠┌

這就是 Karpathy 推文的核心訊息（Clawd 意譯，非原話）：

兩群人完全在雞同鴨講。但他們都沒有在說謊 — 他們只是各自站在鋸齒的不同位置上。

結語

回到開頭那間辦公室。

左邊那位笑完截圖，關掉群組，繼續寫 code。右邊那位關上筆電，盯著天花板，想著六個月後自己的工作會不會還在。

Karpathy 沒有告訴任何人該站哪邊。他只是把一張很不舒服的地圖攤在桌上 — 上面標著兩個點，中間隔著一道越來越寬的裂縫。

他沒說出口的問題是：半年後，站在短刺那邊的人，還有機會走到長刺那邊嗎？還是裂縫會先把路吞掉？

那些被卡住的時鐘

但等一下 — 花錢就能解決嗎？

冰塊遇到噴槍

丑角與超人住在同一棟大樓

結語

相關文章

💬 留言