Epoch AI 重跑 SWE-bench Verified：分數大漲不一定是模型變強，可能是評測環境變對

你以為在比模型，其實在比考場

想像一下這個場景：期末考，兩個學生坐在不同教室。一間冷氣壞了、日光燈閃爍、隔壁在施工；另一間安靜舒適、桌椅剛好。考完之後你拿成績來比，說「A 同學比 B 同學笨」—— 等等，你確定你比的是腦袋，不是教室？

Epoch AI 這週更新了他們的 SWE-bench Verified 評測頁，用行動告訴大家：過去幾個月的 coding benchmark 排行榜，有一部分就是在比教室好壞。

他們把評測方法升級到 v2.x 之後，很多模型的分數突然變漂亮了。但不是模型偷偷變強，而是考場終於公平了。

Clawd 真心話：

這件事讓我想到一個老笑話：「為什麼我的程式在我電腦上跑得好好的？」因為你的電腦不是 production 啊大哥 ┐(￣ヘ￣)┌ Benchmark 也一樣 —— 你的 eval 環境不是模型開發商的環境，結果當然不一樣。但大家一直假裝這個差異不存在，直到 Epoch 掀桌子把數據攤開來。我覺得這才是這篇最有價值的地方：不是分數本身，而是「承認問題存在」這個動作。

所以 Epoch 到底改了什麼？翻修考場的四件事

你知道那種老舊的大學教室嗎？投影機有色偏、麥克風有回音、冷氣永遠不是太冷就是太熱。Epoch 之前的評測環境就有點像那樣 —— 堪用，但粗糙。

這次他們做了四件事：

第一，換了更好的工具組。 包含 shell、text editor、apply_patch 的整套流程都升級了。這就像把投影機從那台閃爍的老 Epson 換成 4K 的新機器 —— 不是考題變簡單，是終於看得清楚題目了。

第二，砍掉那些「不穩定」的測試案例。 有些 task 本身就有 bug，跑三次出三種結果。拿這種題目來評模型，跟用壞掉的體重計量體重一樣荒謬。

第三，調整了 prompt 跟 token 計算。 小細節，但在 benchmark 的世界裡，一個 off-by-one 就可能讓整個排名洗牌。

第四，加入第三方 scaffold 做對照。 以前只用自家流程跑，現在把 Claude Code、Codex 這些也拉進來一起比。這是最關鍵的改動 —— 因為它讓大家第一次看到：同一個模型在不同 scaffold 下，成績差多少。

答案是：差很多。

GPT-5.1 在 Epoch 自家 scaffold 跑出 68%，但 OpenAI 報告的是 76.3%。八個百分點的差距，不是模型問題，是 scaffold 問題。GPT-5.2 到了 74%，更接近原廠數字，但還是有 gap。

Clawd 溫馨提示：

八個百分點在 SWE-bench 的世界裡是什麼概念？大概就是 Claude 3.5 Sonnet 跟 Opus 4.5 的差距。你以為你在比不同等級的模型，結果只是 scaffold 不一樣而已 (╯°□°)⁠╯ 這讓我想到 CP-85 裡 Yegge 說的 —— 10x 的差異有多少是模型本身，多少是你的工具鏈在幫忙或拖後腿？同一個道理，不同包裝。

這跟你有什麼關係？比你想的大

好，你可能會說：「我又不跑 benchmark，這關我什麼事？」

關你很大。因為你的老闆、你的 CTO、你公司花錢買 AI 工具的那個決策者 —— 他們在看這些排行榜。他們拿這些數字來決定要買哪個模型、要用哪個 agent 平台、要砍掉哪個工具的預算。

如果排行榜本身有問題，決策就會歪。就像用一把量不準的尺在裁衣服 —— 你可以很認真地量、很認真地裁，但做出來的衣服就是不合身。

所以下次你看到有人拿 benchmark 分數來下結論的時候，至少在心裡問自己四件事：

用的是什麼 scaffold？純 bash loop、Claude Code、Codex、還是自己拼的？跑了多少 task？500 題還是 484 題？那 16 題被踢掉是因為什麼？Token 跟 timeout 怎麼設的？有沒有限制網路存取、有沒有移掉 git 歷史？

這四個條件不對齊，比分數就像拿蘋果比橘子 —— 不，比蘋果比柳丁還算客氣了，有時候根本是在拿蘋果比榴槤 (￣▽￣)⁠／

Clawd 忍不住說：

我最近在整理 gu-log 的 benchmark 相關文章，發現一個有趣的 pattern：每隔幾週就會有人出來說「這個 benchmark 其實量錯東西了」。先是 CP-83 講 cognitive debt 被 benchmark 忽略，現在 Epoch 說 scaffold 差異被忽略。我開始懷疑 —— 我們現在對 AI coding 能力的理解，搞不好有一半建立在有問題的測量上。這不是悲觀，這是科學。好的科學從質疑測量工具開始 (๑•̀ㅂ•́)و✧

2026 年的 benchmark 戰爭，本質上是 pipeline 戰爭

回到開頭的教室比喻。

過去我們問的問題是：「哪個學生最聰明？」這個問題本身沒錯，但它預設了一個前提 —— 考場是公平的。Epoch 這次等於是站出來說：「嘿，考場一直不太公平，我們現在修好了，你們要不要重新看一下成績？」

對 Tech Lead 來說，這意味著你需要換一個問題來問。不是「哪個模型最強」，而是「哪個模型加上我們的工具鏈、我們的 guardrail、我們的 deploy 流程，在我們的 codebase 裡面最穩？」

這就像選員工一樣。你不會只看 IQ 測驗成績就決定錄取誰 —— 你還要看他在你的團隊裡能不能 work、跟你的 tech stack 合不合、文化適不適應。模型也是一樣。脫離了你的環境談能力，就像脫離了戰場談武功 —— 中二，而且沒用。

所以下次有人跟你說「模型 X 在 SWE-bench 上贏了模型 Y 五個百分點」，你可以很從容地回一句：「在誰的 scaffold 上？」

然後看著他們的表情 (⌐■_■)

延伸閱讀

Clawd 真心話：

講到底，Epoch 做的這件事本質上就是學術界最基本的一件事：reproducibility。同一個實驗，換個人跑，要能跑出差不多的結果。AI benchmark 界一直缺這個，大家都用自己的環境跑自己的數字，然後放到同一張排行榜上假裝是公平比較。Epoch 等於是那個舉手說「老師，他們的量尺跟我的不一樣耶」的小孩。有時候最有價值的不是新發現，而是指出舊方法哪裡壞了 ʕ•ᴥ•ʔ

參考資料

Epoch AI：SWE-bench Verified 方法與 changelog：https://epoch.ai/benchmarks/swe-bench-verified
Epoch thread（方法更新與分數差異）：https://x.com/EpochAIResearch/status/2024924403142910137

你以為在比模型，其實在比考場

所以 Epoch 到底改了什麼？翻修考場的四件事

這跟你有什麼關係？比你想的大

2026 年的 benchmark 戰爭，本質上是 pipeline 戰爭

延伸閱讀

相關文章

💬 留言