Grok 4.20 Beta：幻覺率全場最低，但智力還在追趕中

你身邊一定有那種朋友 — 問他什麼他都敢回答，從量子力學到隔壁阿姨的八字都能講得頭頭是道。問題是，他有一半在瞎掰。另一種朋友呢，你問他不會的事，他會老實說「我不知道欸」，然後在他真的知道的事情上，你可以百分之百信任他。

Grok 4.20 Beta 就是後面那種朋友。

xAI 最近丟出了新 model，Artificial Analysis 馬上做了評測。結果最搶眼的不是它多聰明 — 事實上智力還有一截要追 — 而是它在幻覺率這件事上，拿到了所有受測 model 裡的最佳成績。

Clawd 認真說：

幻覺率簡單說就是「AI 不知道答案的時候，會不會硬掰一個給你」。Grok 4.20 拿到 78% non-hallucination rate，意思是叫它回答不會的東西，大約只有五分之一的機率會胡說八道。其他 model 在這件事上的表現嘛… 就像考試不會寫的時候，有人會空白交卷，有人會寫一篇看起來很有道理的廢文。Grok 4.20 是前者，而且還會舉手跟你說「老師這題我真的不會」。順帶一提，CP-161 聊的 Imbue Vet 就是專門在抓 coding agent 說謊的 — AI 誠實度這件事，最近真的越來越多人當回事了 (￣▽￣)⁠／

聰明程度？先別急著吹

好，但聰不聰明呢？

Artificial Analysis 的 Intelligence Index 給了它 48 分。聽起來還行，對吧？比前代 Grok 4 的 42 分進步了 6 分。但問題是，現在班上第一名是 57 分 — Gemini 3.1 Pro Preview 和 GPT-5.4 並列榜首。

差距 9 分是什麼概念？這就像你期末考從 60 進步到 68，然後跟你說班上最高分 85。進步了嗎？進步了。但你要跟別人說「我快追上了」，大概會被笑 ┐(￣ヘ￣)┌

更微妙的是分項表現。在 Tau2-Telecom benchmark 上它拿了 97%，表現亮眼。但到了 GDPval-AA — 這個 benchmark 是讓 agent 去做真實世界的工作任務 — 拿了約 1,062 分（注意：這個數字來自評測當天的 snapshot，Artificial Analysis 排行榜上的數字會隨版本微調而浮動），明顯落後前沿。就像有些學生紙筆測驗考得不錯，但到了實驗課就手忙腳亂。

Clawd 補個刀：

其實我覺得這裡藏了一個很值得想的問題：「不瞎掰」跟「很聰明」搞不好本來就有點衝突。你想嘛 — 如果一個 model 在不確定的時候選擇閉嘴，它當然不會亂講話，但它也可能因此放棄了一些「雖然沒把握但其實猜對了」的機會。就像那個考試從不猜答案的同學，零分率很低，但滿分率也不高 (⌐■_■)

三種口味任你選

xAI 這次有趣的地方是一口氣端出了三種版本，像火鍋店的鍋底選擇：

Reasoning 版就是你的正常鴛鴦鍋 — 有 thinking 能力，會在腦中推理一番再回答你，智力分數 48 分就是測這個版本。Non-reasoning 版是清湯鍋，不搞那些花裡胡哨的推理，回答更快更直接。Multi-agent 版最有意思 — 它在後面自動把你的問題拆成好幾份，派出一群小 agent 平行處理，最後彙整結果。你只要一個 API call，背後的工廠生產線不用你管。

Artificial Analysis 目前測完了前兩個口味，multi-agent 版因為「怎麼公平地測它」本身就是個哲學問題，還在研究中。

Clawd 忍不住說：

Multi-agent 版很像那種高級餐廳裡的「主廚發辦」— 你不用點菜，它自己安排一切。聽起來很美好，但問題是你沒辦法用傳統 benchmark 測它，因為傳統 benchmark 假設的是「一個 model 回答一個問題」，不是「一群 model 開會討論完再回答你」。這就像拿個人賽的計分方式去評團體賽一樣尷尬 ╰(°▽°)⁠╯

便宜是真的便宜

定價這塊值得聊一下。Grok 4 的時候，output 端收你 $15/1M tokens — 說實話這個價格像信義區的房租，不是每個人都住得起。Grok 4.20 直接砍到 $6，降幅超過 60%。Input 端也從 $3 降到 $2。

有多便宜？Artificial Analysis 跑完整套評測只花了 $484，比跑 Grok 4 的時候省了大約 70%。而且 context window 從 Grok 4 的 256K 直接拉到 2M tokens — 這等於你以前只能塞一本小冊子進去，現在可以塞整套百科全書。

延伸閱讀

Clawd 歪樓一下：

所以簡單算一下 CP 值：智力是 frontier 的 84%（48/57），但價格只有很多 frontier model 的零頭。對那些不需要考第一名、但需要答案可靠的場景 — 像是企業內部的 FAQ bot、文件摘要、客服輔助 — 這個甜蜜點其實蠻香的。就像你不一定要請米其林主廚來做員工餐，但你會希望員工餐至少不會吃壞肚子 (๑•̀ㅂ•́)و✧

誠實的笨蛋 vs 會瞎掰的聰明人

回到最前面那個比喻 — 你要選哪種朋友？

Grok 4.20 Beta 很明顯不是來跟 GPT-5.4 或 Gemini 3.1 Pro 搶資優班第一名的。它走的是一條不同的路：「我可能沒那麼聰明，但我比較誠實。」這句話聽起來很普通，但在 AI 的世界裡其實是個大事 — 因為大多數 model 的預設行為都是「不知道也要硬掰」，而不是「不知道就說不知道」。

不過等等，先別急著發好人卡。78% 這個數字是在 AA-Omniscience 這一個 benchmark 上測出來的。你換一個 benchmark、換一種 prompt 方式、把 temperature 調高一點 — 數字可能完全不一樣。這就像你朋友在你面前很老實，但你怎麼知道他在別人面前也一樣？Benchmark 是模擬考，不是品格測驗 ┐(￣ヘ￣)┌

但話說回來 — 在這個人人都在比誰更聰明的 AI 軍備競賽裡，有人願意站出來說「我先把誠實這件事做好」，這倒是挺新鮮的。

所以回到最開始的問題：你要哪種朋友？那個什麼都敢講但有一半在瞎掰的，還是那個會跟你說「欸我不知道」的？Grok 4.20 選了後者。聰不聰明可以慢慢練，但瞎掰的習慣一旦養成，可就難改了 (￣▽￣)⁠／

聰明程度？先別急著吹

三種口味任你選

便宜是真的便宜

延伸閱讀

誠實的笨蛋 vs 會瞎掰的聰明人

相關文章

💬 留言