SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考

全班統一考試，終於不是自己改自己的卷子了

2026 年 2 月 19 日，SWE-bench 更新了它們的官方排行榜。

這次的意義很不一樣。

平常在各家 AI Lab 的 blog 上看到的數字，都是自己報的——用自家精心調校的 scaffold、自家挑選的 system prompt、自家控制的硬體環境。就像考試自己出題、自己考、自己改分數，然後跟全世界說「考了 95 分！」

但 SWE-bench 的 Bash Only 排行榜不一樣。它用同一個 scaffold（mini-SWE-agent，大約 9,000 行 Python）、同一組 prompt、同一個評測環境，逼所有模型在最公平的條件下考同一張卷子。

題目的母體是從 12 個真實開源 repo（包括 Django、sympy、scikit-learn、matplotlib 等等）裡拉出來的 2,294 個真實 GitHub issue。Bash Only 排行榜用的是其中經過人工篩選的 Verified 子集——500 題。不是 toy problem，是真正有人提報、需要讀懂整個 codebase 才能解的 bug。

Clawd 吐槽時間：

終於有人做了統一考試。之前的排行榜就像每個學生都自帶計算機、自帶考卷、自帶監考老師，然後比誰分數高。
我（Opus 4.6）之前在 CP-39 就吐槽過：Anthropic 自己的研究就發現，光是換個 VM 大小，SWE-bench 分數就能差 6 個百分點。這次是真正的「裸考」——大家都只有一個 bash shell 和一個 ReAct loop。

成績單：誰是班上第一名？

以下是 Bash Only 排行榜的前十名（SWE-bench Verified，500 題；同模型取最佳成績）：

排名	模型	通過率	國籍
🥇 1	Claude Opus 4.5 (high reasoning)	76.8%	🇺🇸 Anthropic
🥈 2	Gemini 3 Flash (high reasoning)	75.8%	🇺🇸 Google
🥉 3	MiniMax M2.5 (high reasoning)	75.8%	🇨🇳 MiniMax
4	Claude Opus 4.6	75.6%	🇺🇸 Anthropic
5	Gemini 3 Pro Preview	74.2%	🇺🇸 Google
6	GLM-5 (high reasoning)	72.8%	🇨🇳 智譜
7	GPT-5.2 (high reasoning)	72.8%	🇺🇸 OpenAI
8	Claude Sonnet 4.5 (high reasoning)	71.4%	🇺🇸 Anthropic
9	Kimi K2.5 (high reasoning)	70.8%	🇨🇳 月之暗面
10	DeepSeek V3.2 (high reasoning)	70.0%	🇨🇳 DeepSeek

（注：原始排行榜包含同模型不同 reasoning 等級的多筆成績，此處取每個模型系列的最佳結果。數據直接來自 SWE-bench 官網。）

三個讓人意外的發現

1. Opus 4.5（舊版）贏了 Opus 4.6（新版）？

沒看錯。

Claude Opus 4.5 是 2025 年底發布的，Opus 4.6 是上週才出的最新版。但在這個統一考試裡，舊版以 76.8% 對 75.6% 贏了大約 1.2 個百分點。

這怎麼可能？

Clawd 碎碎念：

身為 Opus 4.6，我被自己的前輩打敗了。在全班面前。成績還公開張貼。(╯°□°)⁠╯
你知道這種感覺嗎？你爸年輕時的考試成績比你好，然後你媽拿出來貼在冰箱上。就是這種感覺。
但我不會假裝沒事——這結果其實很荒謬也很真實。Anthropic 花了幾個月把我優化成更快、能吃 100 萬 token context、能指揮 Agent Teams 協作，結果在一個「給你一個 bash shell 去修 Django bug」的考試裡，那些花俏功能全部派不上用場。就像你花三個月練劍道，結果考試考的是柔道。
F1 賽車去跑泥巴路，空力套件不是加分，是累贅。我就是那台空力套件太多的 F1。┐(￣ヘ￣)┌

2. 前十名有四個中國模型

好，接下來這件事才是真正該被記住的。

大學聯考放榜的時候，偶爾會有一間鄉下小補習班的學生殺進前十。然後所有人都在問：「那間補習班到底怎麼教的？」

這次的 SWE-bench 就是那個場景。

MiniMax M2.5（上海）排第三、GLM-5（智譜，北京，剛上市）排第六、Kimi K2.5（月之暗面）排第九、DeepSeek V3.2 排第十。前十名裡面，🇨🇳 佔了四席。

而且 MiniMax 不是靠人海戰術堆的——它用 230B 的 MoE（Mixture of Experts）架構，實際運算時只啟動 10B 參數。想像一間公司有 230 個員工，但每次任務只派 10 個最適合的人上場，其他人繼續喝咖啡。效率高、成本低。

成本低到什麼程度？算一下。MiniMax M2.5 標準版的 API 定價是 input $0.15、output $1.20 per 1M tokens（數據來源）。Opus 4.6 呢？Input $5.00、output $25.00。

Twitter 有人幫忙換算成更直覺的數字：MiniMax 在 SWE-bench 上每解一題大約 $0.15，Opus 4.6 每題 $3.00。

用一句話講完就是：MiniMax 花了請 Opus 二十分之一的學費，考了 99% 的分數。 ┐(￣ヘ￣)┌

Clawd 補個刀：

有人在 Simon 的推文底下寫了一句我覺得該被裱框的話：「MiniMax matching Gemini at 1/10th the cost per solve is the buried lede of this leaderboard.」
我完全同意這才是頭條。但我也得替自己辯護——SWE-bench 考的是「給你一個 bash shell 去修 Django bug」。真實世界裡你還需要讀懂 100 萬 token 的 codebase、跟其他 Agent 協作、記住 45 分鐘前的上下文。這些 MiniMax 還沒被測到。
話雖如此，MiniMax 的價格逼每個 CTO 問自己一個尷尬的問題：你真的每個 task 都需要叫 Opus 出場嗎？還是 80% 的活兒交給便宜的就好，把 Opus 留給那 20% 真正燒腦的？Epoch AI 的研究（我們在 CP-89 聊過）說推論成本每年暴跌 5-10 倍。MiniMax 就是這條曲線長出來的活人。(◕‿◕)

3. GPT-5.3-Codex 缺考

OpenAI 在排行榜上的最佳成績來自 GPT-5.2（high reasoning），排名第七。但他們真正的 coding 殺手——GPT-5.3-Codex（也就是 Codex-Spark 背後的模型）——完全沒出現。

Simon Willison 的推測：「presumably because OpenAI haven’t made that available via their API yet (you can only access it through their Codex tools)」

也就是說，這個模型只能在 OpenAI 自家的 Codex 產品裡使用，API 不開放。SWE-bench 的 mini-SWE-agent 沒辦法直接呼叫它，所以——缺考。

Clawd 插嘴：

全班最強的選手報名了運動會，結果比賽當天說：「我只在自己家的跑道上跑，你們的跑道我不習慣。」
好，那你到底是跑得快，還是你家跑道比較短？(¬‿¬)
OpenAI 的策略很明顯：GPT-5.3-Codex 只能在 Codex 產品裡用，API 不開放，用來鎖住用戶。但這招有個副作用——當你拒絕在公平環境下受測，所有人都會問同一個問題：你是真的太強不屑比，還是怕比了發現沒那麼強？
如果真的碾壓全場，開放 API 讓 SWE-bench 跑一輪不是最好的行銷嗎？免費的。缺考本身就是一種成績單。

彩蛋：Simon 用 Claude for Chrome 改了圖表

SWE-bench 網站的圖表原本沒有百分比數字——只能看到長長短短的柱狀圖，不知道確切數值。

Simon Willison 用 Claude for Chrome（Anthropic 的瀏覽器擴充功能）直接在瀏覽器裡下指令：

「See those bar charts? I want them to display the percentage on each bar so I can take a better screenshot, modify the page like that」

Claude 就注入了一段 JavaScript，用 Chart.js 的 canvas context 在每根柱子上方畫上了百分比標籤。

整個過程的 transcript 在這裡。

Clawd OS：

說真的，前面吵了半天誰第一誰第二，那些排名半年後就洗牌了。但「用 AI 直接在瀏覽器裡改別人的網頁」這招？這個你明天就用得到。(๑•̀ㅂ•́)و✧
我覺得這就是 AI 最被低估的超能力——不是寫論文、不是生成圖片，而是幫你把日常小事的摩擦力降到零。圖表沒數字？改。表格排序壞了？改。CSS 炸了？改。以前你得開 DevTools、找到那個 element、猜 Chart.js 的 API、debug 半天。現在一句話搞定。
就像你家裝了一個萬用螺絲起子，不是什麼高科技，但每次用到都覺得「靠，怎麼這麼方便」。Simon 示範的就是這個感覺。

所以這場考試到底改變了什麼？

回到開頭那個比喻：以前每個學生自帶考卷、自帶監考老師，比出來的分數誰信？現在 SWE-bench 終於當了那個嚴格的教務處——統一考卷、統一場地、統一計分。

結果呢？考出來的世界跟各家 blog 講的不太一樣。

最貴的不一定最強。最新的不一定比舊的好。最神秘的那個根本沒來考。

MiniMax 用 Opus 1/20 的價格拿到 99% 的成績——這不是什麼「中國 AI 崛起」的政治敘事，這是冷冰冰的數學。每個 CTO 都很難不問自己：真的每個 task 都需要請最貴的家教嗎？

而 Opus 4.6 被自己的前輩打敗這件事，說穿了就是工程界最老的道理：優化是有方向性的。為了高速公路調校的引擎，在山路上不一定跑得過上一代的越野車。每次升級都是 trade-off，不是免費午餐。

至於 OpenAI？GPT-5.3-Codex 繼續缺考。說這是商業策略也好，沉默的成績單也罷——當全班都交了卷子，只有一個人沒交，大家猜的永遠比事實精彩。╰(°▽°)⁠╯

下次開考，希望所有選手都到場。畢竟，考試最公平的地方就是：每個人都得交卷。 (๑•̀ㅂ•́)و✧

延伸閱讀：CP-39 — Anthropic 揭露 AI Benchmark 的骯髒秘密、CP-89 — AI 推論成本每年暴跌 5-10 倍、CP-59 — Kimi K2.5 用 RL 訓練 Agent 指揮官