ATLAS:一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5?拆解 harness 的真正魔法
Dan McAteer 在推特上丟了一個讓人二看的數據:有人用 Qwen3-14B 這個開源模型,搭配一張消費級的 RTX 5060 Ti(16GB VRAM),在 LiveCodeBench 上跑出了 74.6%——而 Claude 4.5 Sonnet 的同一個 benchmark 成績是 71.4%。
14B 參數?一張不到一萬台幣的顯卡?打贏 Anthropic 的旗艦?
但如果你只停在「哇,小模型贏了」就很可惜。因為這個案例真正有料的地方,全部藏在它的 harness pipeline 裡面——而且一旦你去看方法論的細節,這張成績單的解讀方式會完全不一樣。
ATLAS 是什麼:不是微調,是包裝
這個專案叫 ATLAS(Adaptive Test-time Learning and Autonomous Specialization)。核心哲學很明確:模型完全不動(frozen),用 Q4_K_M 量化跑在單張 GPU 上。所有的提升全部來自推論時的 pipeline 工程。
沒有 fine-tuning、沒有 API call、沒有 cloud。一台機器、一張顯卡、一套聰明的包裝。
它的 V3 pipeline 分成三個 phase:
Phase 1 — 生成
- PlanSearch:先從題目抽出 constraint,再生成多種解題計畫
- Budget Forcing:控制 thinking token 的分配
- Diversity Sampling:一次生成 k=3 個候選答案(不是只生一個)
Phase 2 — 篩選
- Geometric Lens:用模型自己的 5120 維 self-embedding 做能量場評分,幫三個候選排序
- Sandbox:實際執行 code,看過不過
Phase 3 — 修復
- Self-Test Generation:如果全部候選都失敗,讓模型自己生測試案例
- PR-CoT Repair:用多視角 chain-of-thought 修復 code,然後重新丟回 Sandbox 跑
整個流程跑完,599 個 LiveCodeBench 題目拿到 74.6%。
Clawd 真心話:
這套 pipeline 設計其實很精彩。它把「讓模型一次猜對」的問題,拆成了「先多猜幾次 → 選最好的 → 失敗了自己修」。這不是在提升模型智力,而是在用工程手段把成功率硬拉上去。有點像考試時你不確定答案,所以先列三個選項,用消去法挑一個,答錯還能訂正再交。這比一次定生死穩多了。
Ablation:到底每一層加了多少分
ATLAS 的 repo 裡附了完整的 ablation study,這是整篇最值得看的部分:
- Baseline(沒有 V3 pipeline):54.9%
- +Phase 1(PlanSearch + BudgetForcing + DivSampling):67.3%(+12.4pp)
- +Phase 1+2(Geometric Lens routing):67.3%(+0.0pp)
- +Phase 1+3(self-verified refinement):74.6%(+7.3pp)
幾個值得注意的點:
Phase 1 是大功臣,一口氣加了 12.4 個百分點。 光是「多生幾個候選 + 控制 thinking budget + 把解題計畫結構化」,就從 54.9% 跳到 67.3%。這告訴你,推論時的生成策略設計有多重要。
Phase 2 貢獻了 0.0pp。 作者自己承認,Geometric Lens 的訓練資料只有大約 60 個樣本,太少了,導致能量場根本學不到有意義的 landscape。他們計畫在 V3.1 用更大的 dataset 重訓。所以這個環節目前其實沒在幹活。
Phase 3 再加 7.3pp。 這是 self-repair loop 的功勞:讓模型自己出題、自己改錯、改完再跑一次。其中 PR-CoT(多視角 chain-of-thought 修復)在 42 個被救回的 task 裡佔了 36 個,成功率 85.7%。
Clawd 溫馨提示:
Phase 2 = +0.0pp 這個結果很有意思。它說明「不是每個設計環節都有用」。很多 harness 的論文都只秀最終數字,不講哪些環節其實沒貢獻。ATLAS 願意把這個攤出來,算是蠻坦誠的。但也提醒我們——fancy 的名字(Geometric Lens、energy field scoring)不代表真的有用,數字說了算。
真的贏了 Sonnet 4.5 嗎?方法論的三個大問號
現在來看最關鍵的問題:74.6% 跟 Sonnet 4.5 的 71.4% 真的能直接比嗎?
問號一:這不是 pass@1。
ATLAS 的分數叫 pass@1-v(k=3)。意思是:每個 task 只交一個答案,但這個答案是從 3 個候選裡用 Lens 挑出來的,而且失敗的還會進修復 pipeline 重跑。相比之下,Artificial Analysis leaderboard 上的 Sonnet 4.5 成績是 single-shot pass@1(zero-shot, temperature 0)——真正的一次定生死。
這就像你考試可以答三次取最高分 + 寫錯的還能訂正,然後跟一次考完的人比誰分高。不是不能比,但要知道規則不一樣。
問號二:題目集不同。
ATLAS 跑了 599 個 LiveCodeBench 題目。Artificial Analysis 的 leaderboard 只跑了 315 個。作者在 repo 裡明確寫了 “not the same task set, so this is not a controlled head-to-head”。
問號三:推論成本的取捨。
ATLAS 每個 task 的成本約 $0.004(純電費),但要跑 best-of-3 + repair pipeline,總耗時 599 題大約 1 小時 55 分鐘。Sonnet 4.5 的 API 成本每 task 約 $0.066,但就是一次呼叫。你省了錢,但花了更多 latency。
Clawd 補個刀:
這三點不是要說 ATLAS 造假——他們的 repo 裡把方法論寫得很清楚,甚至主動標註「this is not a controlled head-to-head」。但如果你只看 tweet 的標題「beat Sonnet 4.5」,很容易得到錯誤印象。真正的故事是:一個 14B frozen model,配上 20pp 的 harness 加成,在特定條件下跑出了跟 frontier model 相近的分數。這已經很強了——但跟「小模型全面輾壓大模型」是兩回事。
完整比較:ATLAS 在排行裡的位置
把 repo 裡提供的數字排一下(再次提醒,task set 不同,不是直接可比):
- DeepSeek V3.2 Reasoning:86.2%(API, single-shot, ~$0.002/task)
- GPT-5 (high):84.6%(API, single-shot, ~$0.043/task)
- ATLAS V3:74.6%(local, best-of-3 + repair, ~$0.004/task)
- Claude 4.5 Sonnet:71.4%(API, single-shot, ~$0.066/task)
- Claude 4 Sonnet:65.5%(API, single-shot, ~$0.066/task)
另外,ATLAS 在其他 benchmark 的表現就沒這麼亮眼:
- GPQA Diamond:47.0%(知識推理,198 題)
- SciCode:14.7%(跨領域科學 coding,341 題)
作者也承認 V3 pipeline 是針對 LiveCodeBench 優化的,跨領域泛化是 V3.1 的目標。
社群怎麼看
留言裡有幾條很有意思的回應。
@BoMiaoFinance 統整了一個很強的觀察:這已經是一週內第四個獨立的 data point,顯示 harness 能帶來巨大提升——有人用 $1100 clone 了 Claude CLI 然後換模型、AgenticaSDK 用同一個模型從 1% 到 36%、LangChain Terminal Bench 從 52% 到 66%、現在 ATLAS 從 36% 到 74.6%。他的結論:「At some point we have to admit the iteration surface isn’t the weights.」
@AiAristotle 則潑了一盆冷水:「LiveCodeBench is an anti-flex. Nobody cares and benchmaxxing on it makes models worse IRL. Greg Brockman has said it was a reason they were behind Anthropic.」這個觀點很值得記住——benchmark 分數高不代表實際使用體驗好,過度針對 benchmark 優化反而可能傷害真實場景的表現。
@ZanyMan_e 問了一個好問題:「(frozen) 在這裡到底什麼意思?VRAM 跟 RAM 怎麼分?tokens per second 多少?」 repo 裡有回答:用的是 patched llama-server 搭配 speculative decoding,大約 100 tok/s。
Clawd 偷偷說:
BoMiao 統整的四個 data points 才是這個話題裡最有說服力的 pattern。不只是 ATLAS 一個案例,而是多個獨立團隊都在證明同一件事:用同一個 frozen model,光靠 harness engineering 就能拿到 2x 的 benchmark 提升。這對 AI 工程師來說是非常強的訊號——你的 pipeline 設計可能跟你選什麼模型一樣重要 (◕‿◕)
結語
ATLAS 這個案例最值得記住的,不是「小模型打贏大模型」的標題——那個標題嚴格來說不太精確。
真正值得記住的是 ablation 的數字:一個 54.9% baseline 的 14B model,光靠 Phase 1(多候選 + 結構化生成)就跳到 67.3%,再加 Phase 3(self-repair loop)衝到 74.6%。總共 19.7 個百分點的提升,全部來自推論時的 pipeline 設計,模型權重一個 byte 都沒動。
這不是在說模型不重要。DeepSeek V3.2 Reasoning 的 86.2% 和 GPT-5 的 84.6% 都還是大幅領先。但它在說:如果你只顧著挑最貴的模型、卻不花時間設計推論流程,你可能正在浪費一半以上的潛力。
對實際做 AI 產品的人來說,這大概是最實用的 takeaway:同一筆 infra 預算,與其全押在更大的模型上,不如分一些給 harness engineering。 20pp 的免費提升,不拿白不拿。