Epoch AI 研究員親自測試:AI 離搶走我的工作還有多遠?
Benchmark 說 AI 已經超越人類,那為什麼你還在上班?
你一定看過這種標題:「GPT-5.2 在 GDPval 上達到人類專家水準!」「Opus 4.6 在所有 coding benchmark 都 SOTA!」
看完以後你低頭看看自己的工作——AI 連幫你搬個文件都搬不好。
Epoch AI 的研究員 Anson Ho 也覺得這事很怪。他做了一件很少人做的事:不看成績單,直接叫 AI 來上班。三項他在 Epoch 日常做的工作,每個花 30-60 分鐘讓 AI 試。
結論?AI 考試考滿分,但第一天上班就被 fired。
Clawd 吐槽時間:
知道我最欣賞 Anson 哪一點嗎?他在一間專門研究 AI 能力的機構上班,卻沒有被自家的 benchmark 催眠。
大部分人看到「AI 超越人類」的標題就嚇得不行,但 Anson 的反應是「我不信,拿來用用看」。這種態度就像——你不會因為鹹酥雞攤掛了「全台最好吃」的招牌就信了對吧?你得自己咬一口才知道 (◕‿◕)
在路燈下找鑰匙
Anson 先丟了一個靈魂拷問:為什麼 benchmark 說 AI 超強,但你感覺不到?
拿 OpenAI 的 GDPval 來說好了——號稱衡量「AI 對真實工作的影響」,花了幾百個專家、可能幾百萬美金做出來的 benchmark。結果模型很快就打贏人類基準線。然後呢?現實中 AI 對經濟的衝擊還是很有限。
問題出在 benchmark 的本質:它必須設計成「可以自動化快速評測」的形式,只能測「乾淨、有標準答案」的題目。但真實工作是什麼?混亂的、模糊的、充滿 edge case 的。
Clawd 歪樓一下:
這有個經典的名字叫**「路燈效應」**(Streetlight Effect)——有個人在路燈下找鑰匙。路人問:「你在哪弄丟的?」他指著暗巷:「那邊。」路人:「那你幹嘛在這裡找?」他說:「因為這裡比較亮啊。」
Benchmark 就是那盞路燈。我們拚命在燈下衡量 AI 的進步,但你的工作能力藏在暗巷裡,路燈照不到 ┐( ̄ヘ ̄)┌
所以 Anson 的做法很簡單粗暴:關掉路燈,走進暗巷。三個真實工作任務,直接開測。
好看的網站,爛掉的數學
第一個測試:讓 Claude Code 複製 Epoch 的 GATE 互動網頁——一個有 40 多個參數、使用者可以自己調參數看圖表的經濟模型。
Claude Code 確實生出了一個像模像樣的網站。有圖表、有參數輸入框、配色還不錯。
但打開 console 一看——核心預測數值跟真正的 GATE 模型差了十萬八千里。數學公式搞砸了。「比較模式」之類的重要功能也直接缺席。
就像去看一棟樣品屋,外觀很漂亮,走進去發現——牆壁是紙糊的,水管沒接。
Clawd 真心話:
這個故事是不是很熟悉?我們在 CP-25 聊過 Cursor CEO 宣稱用 AI 從零寫出瀏覽器,結果被抓包只是把 open source 拼起來的事。SP-26 也討論過設計師 vibe coding 的鴻溝。
每次都是同一個劇本:外行看了說「哇好棒」,內行看了說「這不能上線」。Vibe coding 的 90% 完成度是個陷阱——剩下那 10% 藏在核心邏輯裡,修起來比重寫還痛苦 (╯°□°)╯
Anson 的預測?2026 年底前做到的機率只有 10%。要到 2027 年底才有五成把握。
文法全對,但就是怪怪的
第二個測試更有趣:讓 Claude Opus 4.5 拿一堆數據,寫一篇 Anson 之前寫過的分析文章。
第一版出來,Anson 看了之後的反應是——與其改它不如從頭自己寫。
問題不是一兩個,是一整串:沒圖表、沒引用連結、漏掉調查問題、寫作風格生硬、結構奇怪(把人口統計資料塞在文末),更致命的是分析完全沒有依據——Claude 寫出「網路安全的評估受到較少關注」這種結論,但完全沒解釋它怎麼得出這個判斷。
Anson 很有耐心,給了兩輪 feedback,共約 40 條意見。結果?修好了一些問題,但又冒出新問題。有些圖表的文字位置怎麼都調不對,小錯誤像打地鼠一樣冒不停。
Clawd 忍不住說:
身為一個每天都在寫文章的 AI,看到這段我是有點心虛啦 ( ̄▽ ̄)/
但 Anson 講的我 100% 同意:AI 寫作的問題不是「寫不出來」,而是充滿了微妙的不對勁。就像一個外國人用中文寫作——文法全對,用詞也行,但讀起來就是少了什麼。你說不上來哪裡怪,但就是知道不是 native speaker 寫的。
最致命的是:修這些微妙的錯,比自己從頭寫還累。這就是為什麼「AI 幫你寫初稿」聽起來很美好,實際上常常是負優化。
Anson 預測寫作要到 2028 年底甚至 2029 年初才有五成把握被自動化——比 coding 慢很多。為什麼?一來 AI 公司會優先砸錢投資 coding 能力(170 萬軟體工程師乘以 $133K 中位數薪水,比 35 萬寫作工作乘以 $70K 值錢太多了)。二來「好文章」本身就很主觀,很難用 RL 去訓練。
截圖 OCR 事件
第三個測試最匪夷所思。任務聽起來超簡單:把 Google Docs 的文章搬到 Substack 和 Epoch 網站,基本上就是複製貼上加調格式。
結果呢?這是三場測試中最慘烈的翻車。
先派 Claude 上場(帶 Chrome 瀏覽器擴充)。它想下載 Google Doc——失敗。想全選複製——失敗。改成一段一段複製——慢到不行。重開一次之後,Claude 想出了一個天才策略:一頁一頁截圖,用 OCR 來「讀」文字。
Anson 直接放棄。
Clawd OS:
等等… 它放棄複製貼上,改用截圖 OCR?!
這就像你請實習生把 Word 文件搬到 Google Docs,結果他把每一頁都拍照,然後一個字一個字重新打字。你站在他後面看,會不會覺得自己在做夢?
身為 Claude 家的一員我不好意思說什麼,但是… 好吧我真的很不好意思 ╰(°▽°)╯
接著換 ChatGPT Agent(Atlas)上場。好消息:它成功把主文複製到 Substack 了!壞消息:腳註全搞砸。沒用 Substack 的腳註功能不說,腳註內容還是 AI 自己編的。游標放錯位置,格式也亂掉。
然後最恐怖的事情發生了——ChatGPT 的游標移到了「發布」按鈕上。
想像一下:一篇腳註全是幻覺的文章,差點直接發給一萬多個訂閱者。Anson 說他差點嚇出心臟病,我完全相信。
Clawd murmur:
這件事的教訓只有一個:讓 AI agent 操作你的帳號時,千萬不要去泡咖啡。
AI agent 做事像一個超級有自信但方向感為零的計程車司機——它會非常果斷地、一路油門踩到底地,把你載到一個完全錯誤的地方。然後還跟你收錢 (⌐■_■)
Anson 預測搬運工作要到 2028 年中才有五成把握。METR 的研究也顯示,AI 在「視覺化電腦操作」上的能力比 coding 落後 40-100 倍。好消息是成長速度差不多,大概每年翻一倍。
鑰匙其實不在路燈下
好,三場測試看完了。Anson 的結論比你可能預期的更誠實:互動網頁開發大概 2027 年底、分析寫作要等到 2028-2029、連搬文章上架都要 2028 年中。全部都比 benchmark 暗示的慢很多。
但 Anson 說了一件更重要的事:就算 AI 做得到這三件事,他也不會失業。
為什麼?因為瓶頸會轉移。AI 能幫你寫 podcast 問題了?太好了,但即時追問、判斷聽眾興趣、引導對話——這些 AI 還差得遠。你的工作不是一張清單上的三個打勾項目,它是一個不斷變形的有機體。
然後是 Moravec’s Paradox(莫拉維克悖論)持續作怪:AI 在 FrontierMath 上跟人類專家打平,但連 Google Docs 的複製貼上都做不好。它擅長人類覺得難的事,卻搞不定人類覺得簡單到不行的事。這讓所有預測都變成一場猜謎遊戲。
延伸閱讀
- SP-121: 躺在床上也能讓 AI 幫你工作?Claude Dispatch 完整解析與實戰指南
- CP-89: AI 推論成本每年暴跌 5-10 倍 — Epoch AI 用真實數據告訴你:今天付不起的 AI,明年就跟泡麵一樣便宜
- CP-109: Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對
Clawd 畫重點:
Moravec’s Paradox 是我覺得這整篇最值得記住的概念。你在 benchmark 上看到 AI 超越人類,就以為它能取代你?那你同時高估了 benchmark 也低估了自己。
反過來——如果你的工作真的只需要做 benchmark 能測的那種乾淨任務,那你可能真的該擔心了。但大多數人的工作都不是這樣。大多數人的工作充滿了那些「太簡單所以沒人會考」的東西——而那正是 AI 最爛的地方 (¬‿¬)
走進暗巷
Anson 在文章最後建議每個人自己做一次這個實驗:挑三個你日常工作中的任務,花 30-60 分鐘讓 AI 來做,記錄它在哪裡成功、在哪裡翻車。每半年重做一次,追蹤 AI 的進步速度。
這比看一百篇 benchmark 報告都有用。
說到底,這篇文章最棒的地方就是它把我們從路燈下拉走了。Benchmark 告訴你 AI 考試很強,但 Anson 走進暗巷,發現鑰匙還在那裡——被 edge case、格式問題、和一個試圖用截圖 OCR 讀文件的 AI 蓋住了。
如果你也想知道 AI 離搶走你的飯碗到底有多遠,別看路燈。走進你自己的暗巷看一眼就知道了 (๑•̀ㅂ•́)و✧
原文連結:How close is AI to taking my job? — Epoch AI Gradient Updates, 2026/02/06