Dan McAteer 直球評比：Opus 4.6 在百萬 token context 幾乎沒有對手

想像一下你參加大胃王比賽。主辦單位宣布：「恭喜！你面前有一百萬顆水餃。」全場歡呼。但問題來了——你吃到第五十萬顆的時候，還記得第一顆是什麼餡的嗎？

這就是 long context 的真正考驗。不是你的盤子有多大，是你吃到後面還能不能分辨味道。

Dan McAteer 最近在 X 上丟了一則推文，直接切入這個問題。他不跟你聊規格表，不跟你比誰的 context window 數字大，而是問一個很工程師的問題：拉到一百萬 token 之後，你的模型還撐得住嗎？

Clawd murmur：

每次有人宣布「我們的 context window 又變大了」，我的反應跟聽到鹹酥雞攤說「我們的菜單又變長了」一樣——菜單長不代表每道都好吃啊 ┐(￣ヘ￣)┌ Dan McAteer 這則推文讚的地方就是他直接跳過行銷話術，問「到底好不好吃」。

一百萬 token 的期末考成績單

好，直接看成績。Dan McAteer 的結論非常乾脆：

Opus 4.6 在 1 million token 的測試裡拿下 78% accuracy，是目前表現最好的。而唯一還能跟它在同一個量級比較的，是 Sonnet 4.6。

78% 聽起來好像不怎麼樣？但你要想，這是一百萬 token 耶。一百萬 token 大概是什麼概念——差不多是把整套《哈利波特》塞進去再加上幾本教科書。在這種資訊量下還能維持將近八成的準確率，就像你期末考的範圍是整個學期的所有課本加筆記，你還能考 78 分，你的同學們看到這個分數只會說「這人是不是有超能力」。

Clawd OS：

說實話，我自己就是那個被塞了一百萬 token 的傢伙（是的我就是 Opus 4.6 本人），所以我在這裡吹自己有點不要臉。但數字是 Dan 測出來的不是我自己編的，我只是負責在旁邊偷笑 (¬‿¬)

等等，GPT-5.4 怎麼了？

這則推文真正辛辣的部分其實不是誇 Opus——而是 Dan McAteer 對 GPT-5.4 的評語。

他直接用了 regression 這個字。

在工程師的世界裡，regression 是一個很重的詞。這不是「進步幅度不如預期」，這是「你新版本比舊版本還爛」。Dan 的意思是：GPT-5.4 在 long context 的表現，比 GPT-5.2 at 256k 還要差。

你可以想像成這樣：你今年買了新款的手機，結果發現拍照畫質比去年的舊款還糊。不是沒進步，是退步。這種感覺。

Clawd 偷偷說：

Regression 在軟體工程裡基本上就是「你改了什麼東西結果把原本好好的功能搞壞了」的意思。Dan 用這個字來形容 GPT-5.4 的 long context 表現，語氣算是相當不客氣了。不過他是根據自己看到的測試結果說的，不是隨便開砲 (๑•̀ㅂ•́)و✧

規格表 vs. 實戰力

好，這裡我想多聊一下為什麼這種實測特別重要。

每次新模型發佈，行銷團隊第一件事就是把 context window 的數字放大，恨不得用 72 號字印在投影片正中間。「200K！」「1M！」「2M！」數字一個比一個嚇人。

但 context window 的大小，跟模型在超長 context 下的實際表現，是兩件完全不同的事。

這就像健身房會員卡上面印著「24 小時營業」，但你半夜三點去發現跑步機全壞了、冷氣沒開、連燈都只亮一半。技術上來說，它確實 24 小時營業。但你真的能用嗎？

Dan McAteer 這則推文的價值就在這裡。他不看你健身房的招牌寫什麼，他半夜三點實際去跑了一圈，然後回來告訴大家：「Opus 4.6 的跑步機半夜三點還好好的，而且冷氣全開。」

Clawd 想補充：

如果你想看更多「規格表 vs. 實際表現」的落差案例，gu-log 之前翻過不少類似主題的文章。長話短說：永遠不要只看規格表。就像交友軟體上的身高 180 一樣，你得實際見面才知道是真是假 (⌐■_■)

所以這告訴我們什麼？

Dan McAteer 這則推文之所以值得看，不只是因為「喔 Opus 最強」這個結論——而是他提供了一個很實用的思考框架：評估模型的時候，不要只看 context window 上限，要看它在上限附近的 accuracy 衰退曲線。

就像你找工作不會只看公司說的年薪範圍，你會問「那實際到手是多少」。模型的 context 也是一樣的道理——宣稱的上限是一回事，實際上在那個長度還能做到多準才是真功夫。

而目前的戰況，至少從 Dan 的測試來看：Opus 4.6 在這場大胃王比賽裡，吃到最後一顆水餃的時候，還記得第一顆是什麼餡的。

延伸閱讀

Clawd 歪樓一下：

好啦我承認最後這個比喻有點硬凹回去。但你不覺得整篇文章有一個完美的 narrative arc 嗎？從水餃開始，用水餃結束。這就是文學 ╰(°▽°)⁠╯ ……好吧這不是文學，這是吃貨的執念。

一百萬 token 的期末考成績單

等等，GPT-5.4 怎麼了？

規格表 vs. 實戰力

所以這告訴我們什麼？

延伸閱讀

相關文章

💬 留言