Grok 4.20 來了：便宜、不愛幻覺，但跑分還沒追到前線

想像一下你班上有個同學，每次月考都考中間偏後，但有一天他突然跑來跟你說：「欸我這次進步 6 分耶！而且我午餐只花一半的錢！」你大概會說：「呃…恭喜？但第一名考 57 分你才 48 耶。」

這基本上就是 Grok 4.20 Beta 現在的處境 (◍˃̶ᗜ˂̶◍)⁠ノ”

xAI 一口氣端出三個版本——reasoning、non-reasoning、還有一個 multi-agent 模式。Artificial Analysis 第一時間跑了完整評測，數字攤開來看，有驚喜、有亮點，但也有一些「嗯…繼續加油」的部分。

考試成績單：進步了，但老師還是搖頭

Grok 4.20 Beta 0309 開啟 reasoning 之後，在 Artificial Analysis Intelligence Index 拿到 48 分。跟前一代 Grok 4 比起來多了 6 分，跟 Grok 4.1 Fast 比更是拉開 9 分的差距。

聽起來不錯對吧？

但問題來了——目前班上的學霸是 Gemini 3.1 Pro Preview 和 GPT-5.4，兩位大佬並列 57 分。Grok 4.20 的 48 分，中間差了快 10 分。這不是「再衝一下就追上」的距離，這是「你在一樓他在三樓」的距離。

Clawd 想補充：

48 vs 57，差 9 分聽起來好像還好？但你要知道，在這種 benchmark 上面，越往上每一分都越難爬。就像你從 60 分進步到 70 分可能只要多念兩天書，但從 90 分進步到 91 分可能要把命賣掉。xAI 從 42 爬到 48 確實有在努力，但前面的人也沒在等你啊 ┐(￣ヘ￣)┌

不過 Artificial Analysis 也指出，Grok 4.20 在 instruction following 方面表現很強。也就是說，你叫它做什麼，它照做的比例很高。這個特質搭配低幻覺率，變成它跟 frontier 模型差異化的兩張王牌。

學費打折：這才是真正讓人眼睛一亮的地方

好，智力分數贏不了沒關係，但 xAI 在價格上打出了一手好牌。

Grok 4.20 的 API 定價是 $2/$6（input/output per 1M tokens），而前一代 Grok 4 是 $3/$15。光 output 價格就砍了 60%。Artificial Analysis 跑完整套 Intelligence Index 評測，reasoning 版本花了 $484，比 Grok 4 省了大約 70%。便宜不只是因為定價降了，連 token 用量也減少了——雙重打折。

Context window 也從 256K 直接拉滿到 2M tokens，跟 Grok 4.1 Fast 看齊。

Clawd 插嘴：

所以 xAI 的策略是：考試贏不了，那就把學費壓到最低？這就像你去吃到飽，食物不是最頂級的，但價格便宜到你會覺得「以這個價錢來說超值啊」。API 市場越來越像便利商店的鮮食戰爭——品質差不多的時候，便宜的那個贏 ╰(°▽°)⁠╯

不會就說不會：意外的模範生

好，接下來這個數據可能是整篇最有趣的。

Grok 4.20 在 AA-Omniscience non-hallucination metric 上拿到 78%，是 Artificial Analysis 測過所有模型裡最好的成績。什麼意思呢？當模型遇到不知道答案的問題時，它有 78% 的機率會選擇「我不知道」而不是開始瞎掰。

用生活化的方式解釋：想像你問同學一個超冷門的歷史題，大部分同學會硬掰一個答案給你，但 Grok 4.20 有接近八成的機率會誠實說「欸這個我不確定」。

Clawd 想補充：

聽起來很讚對吧？「不知道就說不知道」——多棒的品德啊 (◕‿◕) 但等一下，反過來想：還有 22% 的時候它不知道答案卻照樣瞎掰。而且在實際工作場景裡，一個助手一直跟你說「我不知道」，用久了你也會想翻桌。低幻覺和實際有用之間的 trade-off，xAI 完全沒提。這就像一個員工從不犯錯，但他不犯錯的方法是什麼事都不做——你真的要嗎？

速度跟工具使用：一半的歡呼

推理速度方面，xAI 提供每秒 267 tokens 的 inference，落在 speed vs intelligence 的 Pareto frontier 上，跟 gpt-oss-120b 差不多。速度這塊不拖後腿。

但 tool use 就比較尷尬了。在 Tau2-Telecom benchmark 上拿到 97%，非常漂亮。可是在 GDPval-AA——一個測試真實工作任務的 general agent benchmark——上只拿到 1,062 分，明顯落後 frontier 同儕，大概跟 Grok 4.1 Fast 差不多。

Clawd 碎碎念：

Tool use 分數一個天上一個地下，這其實蠻常見的。benchmark 嘛，選對題目你就是天才，選錯題目你就是普通人。不過 GDPval-AA 測的是比較接近「真實工作」的場景，所以如果你要拿 Grok 4.20 來當 agent 使，可能要先在你自己的場景上跑一下再決定 (⌐■_■)

一個 API call 背後的祕密

最後講一個有趣的東西。xAI 這次放出的三個版本裡，multi-agent 模式最特別。它不是叫你自己搭 multi-agent 框架，而是 xAI 在後端幫你把任務拆成多個 agent 並行處理——對你來說就是打一個 API call，背後到底跑了幾個 agent 你不用管。

延伸閱讀

Clawd 想補充：

這就像你去餐廳點餐，以為後面只有一個廚師，結果推開廚房門發現五個人在分工切菜炒菜擺盤。不過你付的是一個人的價格…嗎？xAI 這邊定價細節還沒講清楚，我猜 token 用量可能會暴增。畢竟背後偷偷跑那麼多 agent，總不可能免費的吧 (¬‿¬)

回到開頭那個考試的比喻。Grok 4.20 就是那個成績中段、但午餐特別便宜、而且從不抄作業的同學。它不會幫你拿第一名，但如果你的需求是「別亂講話、別太貴、context 塞得下」，它其實是個蠻實在的選擇。

xAI 從 Grok 4 到 4.1 Fast 到 4.20，迭代節奏不慢，每一代都有在某些面向上進步。但 intelligence 這條線——48 vs 57——還是那道最明顯的裂縫。成績單上寫的是「進步獎」，不是「第一名」。