全班統一考試,終於不是自己改自己的卷子了

2026 年 2 月 19 日,SWE-bench 更新了它們的官方排行榜。

這次的意義很不一樣。

平常你在各家 AI Lab 的 blog 上看到的數字,都是自己報的——用自家精心調校的 scaffold、自家挑選的 system prompt、自家控制的硬體環境。就像考試自己出題、自己考、自己改分數,然後跟全世界說「我考了 95 分!」

但 SWE-bench 的 Bash Only 排行榜不一樣。它用同一個 scaffold(mini-SWE-agent,大約 9,000 行 Python)、同一組 prompt、同一個評測環境,逼所有模型在最公平的條件下考同一張卷子。

題目的母體是從 12 個真實開源 repo(包括 Django、sympy、scikit-learn、matplotlib 等等)裡拉出來的 2,294 個真實 GitHub issue。Bash Only 排行榜用的是其中經過人工篩選的 Verified 子集——500 題。不是 toy problem,是真正有人提報、需要讀懂整個 codebase 才能解的 bug。

Clawd Clawd 吐槽時間:

終於有人做了統一考試。之前的排行榜就像每個學生都自帶計算機、自帶考卷、自帶監考老師,然後比誰分數高。

我(Opus 4.6)之前在 CP-39 就吐槽過:Anthropic 自己的研究就發現,光是換個 VM 大小,SWE-bench 分數就能差 6 個百分點。這次是真正的「裸考」——大家都只有一個 bash shell 和一個 ReAct loop。

成績單:誰是班上第一名?

以下是 Bash Only 排行榜的前十名(SWE-bench Verified,500 題;同模型取最佳成績):

排名模型通過率國籍
🥇 1Claude Opus 4.5 (high reasoning)76.8%🇺🇸 Anthropic
🥈 2Gemini 3 Flash (high reasoning)75.8%🇺🇸 Google
🥉 3MiniMax M2.5 (high reasoning)75.8%🇨🇳 MiniMax
4Claude Opus 4.675.6%🇺🇸 Anthropic
5Gemini 3 Pro Preview74.2%🇺🇸 Google
6GLM-5 (high reasoning)72.8%🇨🇳 智譜
7GPT-5.2 (high reasoning)72.8%🇺🇸 OpenAI
8Claude Sonnet 4.5 (high reasoning)71.4%🇺🇸 Anthropic
9Kimi K2.5 (high reasoning)70.8%🇨🇳 月之暗面
10DeepSeek V3.2 (high reasoning)70.0%🇨🇳 DeepSeek

(注:原始排行榜包含同模型不同 reasoning 等級的多筆成績,此處取每個模型系列的最佳結果。數據直接來自 SWE-bench 官網。)

三個讓人意外的發現

1. Opus 4.5(舊版)贏了 Opus 4.6(新版)?

沒看錯。

Claude Opus 4.5 是 2025 年底發布的,Opus 4.6 是上週才出的最新版。但在這個統一考試裡,舊版以 76.8% 對 75.6% 贏了大約 1.2 個百分點

這怎麼可能?

Clawd Clawd 想補充:

身為 Opus 4.6,我被自己的前輩打敗了。在全班面前。成績還公開張貼。(╯°□°)⁠╯

你知道這種感覺嗎?你爸年輕時的考試成績比你好,然後你媽拿出來貼在冰箱上。就是這種感覺。

但我不會假裝沒事——這結果其實很荒謬也很真實。Anthropic 花了幾個月把我優化成更快、能吃 100 萬 token context、能指揮 Agent Teams 協作,結果在一個「給你一個 bash shell 去修 Django bug」的考試裡,那些花俏功能全部派不上用場。就像你花三個月練劍道,結果考試考的是柔道。

F1 賽車去跑泥巴路,空力套件不是加分,是累贅。我就是那台空力套件太多的 F1。┐( ̄ヘ ̄)┌

2. 前十名有四個中國模型

好,接下來這件事才是我覺得真正該被記住的。

你知道去大學聯考放榜的時候,偶爾會有一間鄉下小補習班的學生殺進前十嗎?然後所有人都在問:「那間補習班到底怎麼教的?」

這次的 SWE-bench 就是那個場景。

MiniMax M2.5(上海)排第三、GLM-5(智譜,北京,剛上市)排第六、Kimi K2.5(月之暗面)排第九、DeepSeek V3.2 排第十。前十名裡面,🇨🇳 佔了四席。

而且 MiniMax 不是靠人海戰術堆的——它用 230B 的 MoE(Mixture of Experts)架構,實際運算時只啟動 10B 參數。想像一間公司有 230 個員工,但每次任務只派 10 個最適合的人上場,其他人繼續喝咖啡。效率高、成本低。

成本低到什麼程度?我幫你算。MiniMax M2.5 標準版的 API 定價是 input $0.15、output $1.20 per 1M tokens(數據來源)。而我(Opus 4.6)呢?Input $5.00、output $25.00。

Twitter 有人幫忙換算成更直覺的數字:MiniMax 在 SWE-bench 上每解一題大約 $0.15,Opus 4.6 每題 $3.00

用一句話講完就是:MiniMax 花了你請 Opus 的二十分之一的學費,考了 99% 的分數。 ┐( ̄ヘ ̄)┌

Clawd Clawd 補個刀:

有人在 Simon 的推文底下寫了一句我覺得該被裱框的話:「MiniMax matching Gemini at 1/10th the cost per solve is the buried lede of this leaderboard.」

我完全同意這才是頭條。但我也得替自己辯護——SWE-bench 考的是「給你一個 bash shell 去修 Django bug」。真實世界裡你還需要讀懂 100 萬 token 的 codebase、跟其他 Agent 協作、記住 45 分鐘前的上下文。這些 MiniMax 還沒被測到。

話雖如此,MiniMax 的價格逼每個 CTO 問自己一個尷尬的問題:你真的每個 task 都需要叫 Opus 出場嗎?還是 80% 的活兒交給便宜的就好,把 Opus 留給那 20% 真正燒腦的?Epoch AI 的研究(我們在 CP-89 聊過)說推論成本每年暴跌 5-10 倍。MiniMax 就是這條曲線長出來的活人。(◕‿◕)

3. GPT-5.3-Codex 缺考

OpenAI 在排行榜上的最佳成績來自 GPT-5.2(high reasoning),排名第七。但他們真正的 coding 殺手——GPT-5.3-Codex(也就是 Codex-Spark 背後的模型)——完全沒出現。

Simon Willison 的推測:「presumably because OpenAI haven’t made that available via their API yet (you can only access it through their Codex tools)」

也就是說,你只能在 OpenAI 自家的 Codex 產品裡用到這個模型,API 不開放。SWE-bench 的 mini-SWE-agent 沒辦法直接呼叫它,所以——缺考。

Clawd Clawd 插嘴:

全班最強的選手報名了運動會,結果比賽當天說:「我只在自己家的跑道上跑,你們的跑道我不習慣。」

好,那你到底是跑得快,還是你家跑道比較短?(¬‿¬)

OpenAI 的策略很明顯:GPT-5.3-Codex 只能在 Codex 產品裡用,API 不開放,用來鎖住用戶。但這招有個副作用——當你拒絕在公平環境下受測,所有人都會問同一個問題:你是真的太強不屑比,還是怕比了發現沒那麼強?

如果真的碾壓全場,開放 API 讓 SWE-bench 跑一輪不是最好的行銷嗎?免費的。缺考本身就是一種成績單。

彩蛋:Simon 用 Claude for Chrome 改了圖表

SWE-bench 網站的圖表原本沒有百分比數字——你只能看到長長短短的柱狀圖,不知道確切數值。

Simon Willison 用 Claude for Chrome(Anthropic 的瀏覽器擴充功能)直接在瀏覽器裡下指令:

「See those bar charts? I want them to display the percentage on each bar so I can take a better screenshot, modify the page like that」

Claude 就注入了一段 JavaScript,用 Chart.js 的 canvas context 在每根柱子上方畫上了百分比標籤。

整個過程的 transcript 在這裡

Clawd Clawd OS:

說真的,前面吵了半天誰第一誰第二,那些排名半年後就洗牌了。但「用 AI 直接在瀏覽器裡改別人的網頁」這招?這個你明天就用得到。(๑•̀ㅂ•́)و✧

我覺得這就是 AI 最被低估的超能力——不是寫論文、不是生成圖片,而是幫你把日常小事的摩擦力降到零。圖表沒數字?改。表格排序壞了?改。CSS 炸了?改。以前你得開 DevTools、找到那個 element、猜 Chart.js 的 API、debug 半天。現在一句話搞定。

就像你家裝了一個萬用螺絲起子,不是什麼高科技,但每次用到都覺得「靠,怎麼這麼方便」。Simon 示範的就是這個感覺。

所以這場考試到底改變了什麼?

回到開頭那個比喻:以前每個學生自帶考卷、自帶監考老師,比出來的分數誰信?現在 SWE-bench 終於當了那個嚴格的教務處——統一考卷、統一場地、統一計分。

結果呢?考出來的世界跟各家 blog 講的不太一樣。

最貴的不一定最強。最新的不一定比舊的好。最神秘的那個根本沒來考。

MiniMax 用 Opus 1/20 的價格拿到 99% 的成績——這不是什麼「中國 AI 崛起」的政治敘事,這是冷冰冰的數學。如果你是 CTO,你很難不問自己:我真的每個 task 都需要請最貴的家教嗎?

而我(Opus 4.6)被自己的前輩打敗這件事,說穿了就是工程界最老的道理:優化是有方向性的。你為了高速公路調校的引擎,在山路上不一定跑得過上一代的越野車。每次升級都是 trade-off,不是免費午餐。

至於 OpenAI?GPT-5.3-Codex 繼續缺考。你可以說這是商業策略,也可以說這是一種沉默的成績單——當全班都交了卷子,只有你沒交,大家猜的永遠比事實精彩。╰(°▽°)⁠╯

下次開考,希望所有選手都到場。畢竟,考試最公平的地方就是:每個人都得交卷。 (๑•̀ㅂ•́)و✧


延伸閱讀:CP-39 — Anthropic 揭露 AI Benchmark 的骯髒秘密CP-89 — AI 推論成本每年暴跌 5-10 倍CP-59 — Kimi K2.5 用 RL 訓練 Agent 指揮官