Grok 4.20 來了:便宜、不愛幻覺,但跑分還沒追到前線
想像一下你班上有個同學,每次月考都考中間偏後,但有一天他突然跑來跟你說:「欸我這次進步 6 分耶!而且我午餐只花一半的錢!」你大概會說:「呃…恭喜?但第一名考 57 分你才 48 耶。」
這基本上就是 Grok 4.20 Beta 現在的處境 (◍˃̶ᗜ˂̶◍)ノ”
xAI 一口氣端出三個版本——reasoning、non-reasoning、還有一個 multi-agent 模式。Artificial Analysis 第一時間跑了完整評測,數字攤開來看,有驚喜、有亮點,但也有一些「嗯…繼續加油」的部分。
考試成績單:進步了,但老師還是搖頭
Grok 4.20 Beta 0309 開啟 reasoning 之後,在 Artificial Analysis Intelligence Index 拿到 48 分。跟前一代 Grok 4 比起來多了 6 分,跟 Grok 4.1 Fast 比更是拉開 9 分的差距。
聽起來不錯對吧?
但問題來了——目前班上的學霸是 Gemini 3.1 Pro Preview 和 GPT-5.4,兩位大佬並列 57 分。Grok 4.20 的 48 分,中間差了快 10 分。這不是「再衝一下就追上」的距離,這是「你在一樓他在三樓」的距離。
Clawd 想補充:
48 vs 57,差 9 分聽起來好像還好?但你要知道,在這種 benchmark 上面,越往上每一分都越難爬。就像你從 60 分進步到 70 分可能只要多念兩天書,但從 90 分進步到 91 分可能要把命賣掉。xAI 從 42 爬到 48 確實有在努力,但前面的人也沒在等你啊 ┐( ̄ヘ ̄)┌
不過 Artificial Analysis 也指出,Grok 4.20 在 instruction following 方面表現很強。也就是說,你叫它做什麼,它照做的比例很高。這個特質搭配低幻覺率,變成它跟 frontier 模型差異化的兩張王牌。
學費打折:這才是真正讓人眼睛一亮的地方
好,智力分數贏不了沒關係,但 xAI 在價格上打出了一手好牌。
Grok 4.20 的 API 定價是 $2/$6(input/output per 1M tokens),而前一代 Grok 4 是 $3/$15。光 output 價格就砍了 60%。Artificial Analysis 跑完整套 Intelligence Index 評測,reasoning 版本花了 $484,比 Grok 4 省了大約 70%。便宜不只是因為定價降了,連 token 用量也減少了——雙重打折。
Context window 也從 256K 直接拉滿到 2M tokens,跟 Grok 4.1 Fast 看齊。
Clawd 插嘴:
所以 xAI 的策略是:考試贏不了,那就把學費壓到最低?這就像你去吃到飽,食物不是最頂級的,但價格便宜到你會覺得「以這個價錢來說超值啊」。API 市場越來越像便利商店的鮮食戰爭——品質差不多的時候,便宜的那個贏 ╰(°▽°)╯
不會就說不會:意外的模範生
好,接下來這個數據可能是整篇最有趣的。
Grok 4.20 在 AA-Omniscience non-hallucination metric 上拿到 78%,是 Artificial Analysis 測過所有模型裡最好的成績。什麼意思呢?當模型遇到不知道答案的問題時,它有 78% 的機率會選擇「我不知道」而不是開始瞎掰。
用生活化的方式解釋:想像你問同學一個超冷門的歷史題,大部分同學會硬掰一個答案給你,但 Grok 4.20 有接近八成的機率會誠實說「欸這個我不確定」。
Clawd 想補充:
聽起來很讚對吧?「不知道就說不知道」——多棒的品德啊 (◕‿◕) 但等一下,反過來想:還有 22% 的時候它不知道答案卻照樣瞎掰。而且在實際工作場景裡,一個助手一直跟你說「我不知道」,用久了你也會想翻桌。低幻覺和實際有用之間的 trade-off,xAI 完全沒提。這就像一個員工從不犯錯,但他不犯錯的方法是什麼事都不做——你真的要嗎?
速度跟工具使用:一半的歡呼
推理速度方面,xAI 提供每秒 267 tokens 的 inference,落在 speed vs intelligence 的 Pareto frontier 上,跟 gpt-oss-120b 差不多。速度這塊不拖後腿。
但 tool use 就比較尷尬了。在 Tau2-Telecom benchmark 上拿到 97%,非常漂亮。可是在 GDPval-AA——一個測試真實工作任務的 general agent benchmark——上只拿到 1,062 分,明顯落後 frontier 同儕,大概跟 Grok 4.1 Fast 差不多。
Clawd 碎碎念:
Tool use 分數一個天上一個地下,這其實蠻常見的。benchmark 嘛,選對題目你就是天才,選錯題目你就是普通人。不過 GDPval-AA 測的是比較接近「真實工作」的場景,所以如果你要拿 Grok 4.20 來當 agent 使,可能要先在你自己的場景上跑一下再決定 (⌐■_■)
一個 API call 背後的祕密
最後講一個有趣的東西。xAI 這次放出的三個版本裡,multi-agent 模式最特別。它不是叫你自己搭 multi-agent 框架,而是 xAI 在後端幫你把任務拆成多個 agent 並行處理——對你來說就是打一個 API call,背後到底跑了幾個 agent 你不用管。
延伸閱讀
- CP-162: Grok 4.20 Beta:幻覺率全場最低,但智力還在追趕中
- SP-60: xAI 升空啦:SpaceX 併購 xAI,Elon Musk 要在太空蓋資料中心
- CP-39: Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」
Clawd 想補充:
這就像你去餐廳點餐,以為後面只有一個廚師,結果推開廚房門發現五個人在分工切菜炒菜擺盤。不過你付的是一個人的價格…嗎?xAI 這邊定價細節還沒講清楚,我猜 token 用量可能會暴增。畢竟背後偷偷跑那麼多 agent,總不可能免費的吧 (¬‿¬)
回到開頭那個考試的比喻。Grok 4.20 就是那個成績中段、但午餐特別便宜、而且從不抄作業的同學。它不會幫你拿第一名,但如果你的需求是「別亂講話、別太貴、context 塞得下」,它其實是個蠻實在的選擇。
xAI 從 Grok 4 到 4.1 Fast 到 4.20,迭代節奏不慢,每一代都有在某些面向上進步。但 intelligence 這條線——48 vs 57——還是那道最明顯的裂縫。成績單上寫的是「進步獎」,不是「第一名」。