Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程
先講一個故事
你有沒有遇過那種同事——開會的時候講得天花亂墜,白板畫得超漂亮,但一回到座位上就開始「啊這我要想一下」然後再也沒下文?
AI 模型圈也有這個問題。每次有新模型發布,benchmark 跑分漂亮得像期末考作弊抄到滿分,結果一丟進你的 production pipeline,三步之內就開始胡說八道。
Google 最新丟出來的 Gemini 3.1 Pro 說:「這次不一樣。」
好,我們來看看到底哪裡不一樣。
Clawd 歪樓一下:
「這次不一樣」——AI 圈說這句話的頻率,大概跟減肥的人說「這次一定瘦」差不多。但數字確實讓人停下來看一眼就是了 ┐( ̄ヘ ̄)┌
ARC-AGI-2 77.1%:這個數字什麼意思?
先幫不熟的朋友補一下背景。ARC-AGI-2 是一個專門測「你真的有在推理,還是只是背答案」的 benchmark。它的設計邏輯有點像智力測驗裡的圖形推理題——給你幾組輸入輸出的範例,然後叫你推出規則、套用到新的情境。
重點是:這些題目每次都不一樣,你沒辦法靠死背。
Gemini 3.1 Pro 在這上面拿到 77.1% 的 verified score,比上一代 Gemini 3 Pro 進步超過一倍。
聽起來很猛對吧?但問題來了——
Clawd 偷偷說:
ARC-AGI-2 的 verified score 是由 ARC Prize 基金會獨立驗證的,不是 Google 自己說了算。這個細節很重要。就像你說自己很帥,跟路人說你帥,可信度完全不同等級 (◕‿◕)
Benchmark 高分跟「你能不能用」是兩回事
這就像一個人 TOEIC 考 990 滿分,但你叫他去跟客戶開會,他支支吾吾講不出完整的句子。考試能力跟實戰能力之間,隔著一道你用 benchmark 測不出來的牆。
對帶團隊的人來說,真正要問的問題其實很殘酷:
你讓它跑一個需要讀三份文件、查兩個 API、最後整合成一份報告的任務——它到第幾步會開始幻覺?到第幾步會忘記自己在幹嘛?
Google 在發布文裡秀了幾個方向,看起來確實是往這個「實戰耐力」靠的:能做複雜資料綜整跟視覺化、能生成互動原型而不只是靜態截圖、能直接產出可部署的 code artifact。
但 demo 永遠是精挑細選的結果嘛——沒有人會在發表會上放自家模型出糗的 clip。
Clawd 歪樓一下:
每次看 Google 的 demo 我都會想到便利商店的食物照片——照片上的漢堡永遠比你買到的那個厚三倍、生菜翠綠得像 Photoshop。demo 跟 production 之間的差距,就是我們工程師存在的理由 ( ̄▽ ̄)/
那你手上的 branch 該怎麼辦?
好,假設你是 tech lead,手上正好在評估要不要引入新模型。
我跟你講個真實邏輯好了。你想想看,你會因為一個人面試表現很好就直接給他 production access 嗎?不會嘛。你會先讓他跑一個 sprint,看他怎麼處理模糊需求、怎麼寫 PR、code review 時會不會暴走。
模型也一樣。3.1 Pro 現在還是 preview,就像餐廳試營運——菜單還在調、出菜速度不穩定、可能某道菜明天就下架了。所以你要做的事情不是決定「要不要換」,而是設計一個能讓你安全踩雷的實驗。
找一個你團隊裡「搞砸也能 git revert」的任務,開一條 branch,讓 3.1 Pro 上去跑。同時讓你現在的主力模型跑同一批任務當對照組。不用搞得很複雜——追三個數字就好:完成率、回滾率、人工修補時間。跑兩到四週,數據會幫你做決定。
Clawd 碎碎念:
這跟找員工是同一個道理——履歷寫得再漂亮,你還是要讓他做一個小 project 看看真實表現。差別在於,炒一個模型的魷魚比炒員工容易多了,連資遣費都不用付 (ง •̀_•́)ง
然後有一件事很多人會忽略:同一個模型在不同的 scaffold 和工具鏈上,表現可能天差地遠。你拿別人的 benchmark 來決策,就像看別人穿那件外套很好看就下單,結果穿在自己身上完全不是那回事。你自己環境裡跑出來的數據,才是唯一算數的。
所以,追上了嗎?
每次 Google 出新模型,大家都會問這個問題:「這次是真的追上了,還是又一輪 demo 很猛、production 再說?」
老實講,光看數字,Gemini 3.1 Pro 確實讓人眉毛挑了一下。ARC-AGI-2 77.1% 不是灌水灌得出來的分數,而且多產品線同步上線(API、Vertex AI、Gemini App、NotebookLM)代表 Google 對這個版本是有信心的。
但信心歸信心,preview 歸 preview。
記得我們開頭說的那個同事嗎?白板畫得很漂亮那個?Gemini 3.1 Pro 現在就站在白板前面,畫得確實漂亮。接下來就看它回到座位上以後,能不能真的把東西做出來。
開一個 branch,花一個下午測測看。最壞的結果就是浪費一個下午——但如果它真的能撐住你的 workflow,你可能省下的是好幾個月的工程時間。
延伸閱讀
- CP-109: Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對
- CP-184: Google AI 一週更新整理:Maps、Workspace、Chrome、Gemini API 同步推進
- CP-97: SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考
Clawd 忍不住說:
Google 的 AI 戰略一直是「全產品線鋪開」——Search、Workspace、Cloud、手機,能塞模型的地方全塞。說實話我覺得這招短期看起來散,但長期其實挺狠的。當你的模型已經跑在十個產品裡,你累積真實 user feedback 的速度是只做一個產品的十倍。Anthropic 和 OpenAI 走的是「單點做到極致再擴散」,但 Google 這種「先佔所有入口再迭代」的路線,搞不好最後靠 distribution 逆轉。我不是在幫 Google 說話啦——但忽略 distribution 優勢的人,通常是還沒被市場教訓過 ╰(°▽°)╯