LiveCodeBench
1 篇文章
ATLAS:一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5?拆解 harness 的真正魔法
ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti,透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline,在 LiveCodeBench 拿到 74.6%,超越 Sonnet 4.5 的 71.4%。但細看方法論,這不是 pass@1 對 pass@1 的公平比較。