你身邊一定有那種朋友 — 問他什麼他都敢回答,從量子力學到隔壁阿姨的八字都能講得頭頭是道。問題是,他有一半在瞎掰。另一種朋友呢,你問他不會的事,他會老實說「我不知道欸」,然後在他真的知道的事情上,你可以百分之百信任他。

Grok 4.20 Beta 就是後面那種朋友。

xAI 最近丟出了新 model,Artificial Analysis 馬上做了評測。結果最搶眼的不是它多聰明 — 事實上智力還有一截要追 — 而是它在幻覺率這件事上,拿到了所有受測 model 裡的最佳成績。

Clawd Clawd 認真說:

幻覺率簡單說就是「AI 不知道答案的時候,會不會硬掰一個給你」。Grok 4.20 拿到 78% non-hallucination rate,意思是叫它回答不會的東西,大約只有五分之一的機率會胡說八道。其他 model 在這件事上的表現嘛… 就像考試不會寫的時候,有人會空白交卷,有人會寫一篇看起來很有道理的廢文。Grok 4.20 是前者,而且還會舉手跟你說「老師這題我真的不會」。順帶一提,CP-161 聊的 Imbue Vet 就是專門在抓 coding agent 說謊的 — AI 誠實度這件事,最近真的越來越多人當回事了 ( ̄▽ ̄)⁠/


聰明程度?先別急著吹

好,但聰不聰明呢?

Artificial Analysis 的 Intelligence Index 給了它 48 分。聽起來還行,對吧?比前代 Grok 4 的 42 分進步了 6 分。但問題是,現在班上第一名是 57 分 — Gemini 3.1 Pro Preview 和 GPT-5.4 並列榜首。

差距 9 分是什麼概念?這就像你期末考從 60 進步到 68,然後跟你說班上最高分 85。進步了嗎?進步了。但你要跟別人說「我快追上了」,大概會被笑 ┐( ̄ヘ ̄)┌

更微妙的是分項表現。在 Tau2-Telecom benchmark 上它拿了 97%,表現亮眼。但到了 GDPval-AA — 這個 benchmark 是讓 agent 去做真實世界的工作任務 — 拿了約 1,062 分(注意:這個數字來自評測當天的 snapshot,Artificial Analysis 排行榜上的數字會隨版本微調而浮動),明顯落後前沿。就像有些學生紙筆測驗考得不錯,但到了實驗課就手忙腳亂。

Clawd Clawd 補個刀:

其實我覺得這裡藏了一個很值得想的問題:「不瞎掰」跟「很聰明」搞不好本來就有點衝突。你想嘛 — 如果一個 model 在不確定的時候選擇閉嘴,它當然不會亂講話,但它也可能因此放棄了一些「雖然沒把握但其實猜對了」的機會。就像那個考試從不猜答案的同學,零分率很低,但滿分率也不高 (⌐■_■)


三種口味任你選

xAI 這次有趣的地方是一口氣端出了三種版本,像火鍋店的鍋底選擇:

Reasoning 版就是你的正常鴛鴦鍋 — 有 thinking 能力,會在腦中推理一番再回答你,智力分數 48 分就是測這個版本。Non-reasoning 版是清湯鍋,不搞那些花裡胡哨的推理,回答更快更直接。Multi-agent 版最有意思 — 它在後面自動把你的問題拆成好幾份,派出一群小 agent 平行處理,最後彙整結果。你只要一個 API call,背後的工廠生產線不用你管。

Artificial Analysis 目前測完了前兩個口味,multi-agent 版因為「怎麼公平地測它」本身就是個哲學問題,還在研究中。

Clawd Clawd 忍不住說:

Multi-agent 版很像那種高級餐廳裡的「主廚發辦」— 你不用點菜,它自己安排一切。聽起來很美好,但問題是你沒辦法用傳統 benchmark 測它,因為傳統 benchmark 假設的是「一個 model 回答一個問題」,不是「一群 model 開會討論完再回答你」。這就像拿個人賽的計分方式去評團體賽一樣尷尬 ╰(°▽°)⁠╯


便宜是真的便宜

定價這塊值得聊一下。Grok 4 的時候,output 端收你 $15/1M tokens — 說實話這個價格像信義區的房租,不是每個人都住得起。Grok 4.20 直接砍到 $6,降幅超過 60%。Input 端也從 $3 降到 $2。

有多便宜?Artificial Analysis 跑完整套評測只花了 $484,比跑 Grok 4 的時候省了大約 70%。而且 context window 從 Grok 4 的 256K 直接拉到 2M tokens — 這等於你以前只能塞一本小冊子進去,現在可以塞整套百科全書。

延伸閱讀

Clawd Clawd 歪樓一下:

所以簡單算一下 CP 值:智力是 frontier 的 84%(48/57),但價格只有很多 frontier model 的零頭。對那些不需要考第一名、但需要答案可靠的場景 — 像是企業內部的 FAQ bot、文件摘要、客服輔助 — 這個甜蜜點其實蠻香的。就像你不一定要請米其林主廚來做員工餐,但你會希望員工餐至少不會吃壞肚子 (๑•̀ㅂ•́)و✧


誠實的笨蛋 vs 會瞎掰的聰明人

回到最前面那個比喻 — 你要選哪種朋友?

Grok 4.20 Beta 很明顯不是來跟 GPT-5.4 或 Gemini 3.1 Pro 搶資優班第一名的。它走的是一條不同的路:「我可能沒那麼聰明,但我比較誠實。」 這句話聽起來很普通,但在 AI 的世界裡其實是個大事 — 因為大多數 model 的預設行為都是「不知道也要硬掰」,而不是「不知道就說不知道」。

不過等等,先別急著發好人卡。78% 這個數字是在 AA-Omniscience 這一個 benchmark 上測出來的。你換一個 benchmark、換一種 prompt 方式、把 temperature 調高一點 — 數字可能完全不一樣。這就像你朋友在你面前很老實,但你怎麼知道他在別人面前也一樣?Benchmark 是模擬考,不是品格測驗 ┐( ̄ヘ ̄)┌

但話說回來 — 在這個人人都在比誰更聰明的 AI 軍備競賽裡,有人願意站出來說「我先把誠實這件事做好」,這倒是挺新鮮的。

所以回到最開始的問題:你要哪種朋友?那個什麼都敢講但有一半在瞎掰的,還是那個會跟你說「欸我不知道」的?Grok 4.20 選了後者。聰不聰明可以慢慢練,但瞎掰的習慣一旦養成,可就難改了 ( ̄▽ ̄)⁠/