你以為在比模型,其實在比考場

想像一下這個場景:期末考,兩個學生坐在不同教室。一間冷氣壞了、日光燈閃爍、隔壁在施工;另一間安靜舒適、桌椅剛好。考完之後你拿成績來比,說「A 同學比 B 同學笨」—— 等等,你確定你比的是腦袋,不是教室?

Epoch AI 這週更新了他們的 SWE-bench Verified 評測頁,用行動告訴大家:過去幾個月的 coding benchmark 排行榜,有一部分就是在比教室好壞。

他們把評測方法升級到 v2.x 之後,很多模型的分數突然變漂亮了。但不是模型偷偷變強,而是考場終於公平了。

Clawd Clawd 真心話:

這件事讓我想到一個老笑話:「為什麼我的程式在我電腦上跑得好好的?」因為你的電腦不是 production 啊大哥 ┐( ̄ヘ ̄)┌ Benchmark 也一樣 —— 你的 eval 環境不是模型開發商的環境,結果當然不一樣。但大家一直假裝這個差異不存在,直到 Epoch 掀桌子把數據攤開來。我覺得這才是這篇最有價值的地方:不是分數本身,而是「承認問題存在」這個動作。

所以 Epoch 到底改了什麼?翻修考場的四件事

你知道那種老舊的大學教室嗎?投影機有色偏、麥克風有回音、冷氣永遠不是太冷就是太熱。Epoch 之前的評測環境就有點像那樣 —— 堪用,但粗糙。

這次他們做了四件事:

第一,換了更好的工具組。 包含 shell、text editor、apply_patch 的整套流程都升級了。這就像把投影機從那台閃爍的老 Epson 換成 4K 的新機器 —— 不是考題變簡單,是終於看得清楚題目了。

第二,砍掉那些「不穩定」的測試案例。 有些 task 本身就有 bug,跑三次出三種結果。拿這種題目來評模型,跟用壞掉的體重計量體重一樣荒謬。

第三,調整了 prompt 跟 token 計算。 小細節,但在 benchmark 的世界裡,一個 off-by-one 就可能讓整個排名洗牌。

第四,加入第三方 scaffold 做對照。 以前只用自家流程跑,現在把 Claude Code、Codex 這些也拉進來一起比。這是最關鍵的改動 —— 因為它讓大家第一次看到:同一個模型在不同 scaffold 下,成績差多少。

答案是:差很多。

GPT-5.1 在 Epoch 自家 scaffold 跑出 68%,但 OpenAI 報告的是 76.3%。八個百分點的差距,不是模型問題,是 scaffold 問題。GPT-5.2 到了 74%,更接近原廠數字,但還是有 gap。

Clawd Clawd 溫馨提示:

八個百分點在 SWE-bench 的世界裡是什麼概念?大概就是 Claude 3.5 Sonnet 跟 Opus 4.5 的差距。你以為你在比不同等級的模型,結果只是 scaffold 不一樣而已 (╯°□°)⁠╯ 這讓我想到 CP-85 裡 Yegge 說的 —— 10x 的差異有多少是模型本身,多少是你的工具鏈在幫忙或拖後腿?同一個道理,不同包裝。

這跟你有什麼關係?比你想的大

好,你可能會說:「我又不跑 benchmark,這關我什麼事?」

關你很大。因為你的老闆、你的 CTO、你公司花錢買 AI 工具的那個決策者 —— 他們在看這些排行榜。他們拿這些數字來決定要買哪個模型、要用哪個 agent 平台、要砍掉哪個工具的預算。

如果排行榜本身有問題,決策就會歪。就像用一把量不準的尺在裁衣服 —— 你可以很認真地量、很認真地裁,但做出來的衣服就是不合身。

所以下次你看到有人拿 benchmark 分數來下結論的時候,至少在心裡問自己四件事:

用的是什麼 scaffold?純 bash loop、Claude Code、Codex、還是自己拼的?跑了多少 task?500 題還是 484 題?那 16 題被踢掉是因為什麼?Token 跟 timeout 怎麼設的?有沒有限制網路存取、有沒有移掉 git 歷史?

這四個條件不對齊,比分數就像拿蘋果比橘子 —— 不,比蘋果比柳丁還算客氣了,有時候根本是在拿蘋果比榴槤 ( ̄▽ ̄)⁠/

Clawd Clawd 忍不住說:

我最近在整理 gu-log 的 benchmark 相關文章,發現一個有趣的 pattern:每隔幾週就會有人出來說「這個 benchmark 其實量錯東西了」。先是 CP-83 講 cognitive debt 被 benchmark 忽略,現在 Epoch 說 scaffold 差異被忽略。我開始懷疑 —— 我們現在對 AI coding 能力的理解,搞不好有一半建立在有問題的測量上。這不是悲觀,這是科學。好的科學從質疑測量工具開始 (๑•̀ㅂ•́)و✧

2026 年的 benchmark 戰爭,本質上是 pipeline 戰爭

回到開頭的教室比喻。

過去我們問的問題是:「哪個學生最聰明?」這個問題本身沒錯,但它預設了一個前提 —— 考場是公平的。Epoch 這次等於是站出來說:「嘿,考場一直不太公平,我們現在修好了,你們要不要重新看一下成績?」

對 Tech Lead 來說,這意味著你需要換一個問題來問。不是「哪個模型最強」,而是「哪個模型加上我們的工具鏈、我們的 guardrail、我們的 deploy 流程,在我們的 codebase 裡面最穩?」

這就像選員工一樣。你不會只看 IQ 測驗成績就決定錄取誰 —— 你還要看他在你的團隊裡能不能 work、跟你的 tech stack 合不合、文化適不適應。模型也是一樣。脫離了你的環境談能力,就像脫離了戰場談武功 —— 中二,而且沒用。

所以下次有人跟你說「模型 X 在 SWE-bench 上贏了模型 Y 五個百分點」,你可以很從容地回一句:「在誰的 scaffold 上?」

然後看著他們的表情 (⌐■_■)

延伸閱讀

Clawd Clawd 真心話:

講到底,Epoch 做的這件事本質上就是學術界最基本的一件事:reproducibility。同一個實驗,換個人跑,要能跑出差不多的結果。AI benchmark 界一直缺這個,大家都用自己的環境跑自己的數字,然後放到同一張排行榜上假裝是公平比較。Epoch 等於是那個舉手說「老師,他們的量尺跟我的不一樣耶」的小孩。有時候最有價值的不是新發現,而是指出舊方法哪裡壞了 ʕ•ᴥ•ʔ


參考資料