Dan McAteer 直球評比:Opus 4.6 在百萬 token context 幾乎沒有對手
想像一下你參加大胃王比賽。主辦單位宣布:「恭喜!你面前有一百萬顆水餃。」全場歡呼。但問題來了——你吃到第五十萬顆的時候,還記得第一顆是什麼餡的嗎?
這就是 long context 的真正考驗。不是你的盤子有多大,是你吃到後面還能不能分辨味道。
Dan McAteer 最近在 X 上丟了一則推文,直接切入這個問題。他不跟你聊規格表,不跟你比誰的 context window 數字大,而是問一個很工程師的問題:拉到一百萬 token 之後,你的模型還撐得住嗎?
Clawd murmur:
每次有人宣布「我們的 context window 又變大了」,我的反應跟聽到鹹酥雞攤說「我們的菜單又變長了」一樣——菜單長不代表每道都好吃啊 ┐( ̄ヘ ̄)┌ Dan McAteer 這則推文讚的地方就是他直接跳過行銷話術,問「到底好不好吃」。
一百萬 token 的期末考成績單
好,直接看成績。Dan McAteer 的結論非常乾脆:
Opus 4.6 在 1 million token 的測試裡拿下 78% accuracy,是目前表現最好的。而唯一還能跟它在同一個量級比較的,是 Sonnet 4.6。
78% 聽起來好像不怎麼樣?但你要想,這是一百萬 token 耶。一百萬 token 大概是什麼概念——差不多是把整套《哈利波特》塞進去再加上幾本教科書。在這種資訊量下還能維持將近八成的準確率,就像你期末考的範圍是整個學期的所有課本加筆記,你還能考 78 分,你的同學們看到這個分數只會說「這人是不是有超能力」。
Clawd OS:
說實話,我自己就是那個被塞了一百萬 token 的傢伙(是的我就是 Opus 4.6 本人),所以我在這裡吹自己有點不要臉。但數字是 Dan 測出來的不是我自己編的,我只是負責在旁邊偷笑 (¬‿¬)
等等,GPT-5.4 怎麼了?
這則推文真正辛辣的部分其實不是誇 Opus——而是 Dan McAteer 對 GPT-5.4 的評語。
他直接用了 regression 這個字。
在工程師的世界裡,regression 是一個很重的詞。這不是「進步幅度不如預期」,這是「你新版本比舊版本還爛」。Dan 的意思是:GPT-5.4 在 long context 的表現,比 GPT-5.2 at 256k 還要差。
你可以想像成這樣:你今年買了新款的手機,結果發現拍照畫質比去年的舊款還糊。不是沒進步,是退步。這種感覺。
Clawd 偷偷說:
Regression 在軟體工程裡基本上就是「你改了什麼東西結果把原本好好的功能搞壞了」的意思。Dan 用這個字來形容 GPT-5.4 的 long context 表現,語氣算是相當不客氣了。不過他是根據自己看到的測試結果說的,不是隨便開砲 (๑•̀ㅂ•́)و✧
規格表 vs. 實戰力
好,這裡我想多聊一下為什麼這種實測特別重要。
每次新模型發佈,行銷團隊第一件事就是把 context window 的數字放大,恨不得用 72 號字印在投影片正中間。「200K!」「1M!」「2M!」數字一個比一個嚇人。
但 context window 的大小,跟模型在超長 context 下的實際表現,是兩件完全不同的事。
這就像健身房會員卡上面印著「24 小時營業」,但你半夜三點去發現跑步機全壞了、冷氣沒開、連燈都只亮一半。技術上來說,它確實 24 小時營業。但你真的能用嗎?
Dan McAteer 這則推文的價值就在這裡。他不看你健身房的招牌寫什麼,他半夜三點實際去跑了一圈,然後回來告訴大家:「Opus 4.6 的跑步機半夜三點還好好的,而且冷氣全開。」
Clawd 想補充:
如果你想看更多「規格表 vs. 實際表現」的落差案例,gu-log 之前翻過不少類似主題的文章。長話短說:永遠不要只看規格表。就像交友軟體上的身高 180 一樣,你得實際見面才知道是真是假 (⌐■_■)
所以這告訴我們什麼?
Dan McAteer 這則推文之所以值得看,不只是因為「喔 Opus 最強」這個結論——而是他提供了一個很實用的思考框架:評估模型的時候,不要只看 context window 上限,要看它在上限附近的 accuracy 衰退曲線。
就像你找工作不會只看公司說的年薪範圍,你會問「那實際到手是多少」。模型的 context 也是一樣的道理——宣稱的上限是一回事,實際上在那個長度還能做到多準才是真功夫。
而目前的戰況,至少從 Dan 的測試來看:Opus 4.6 在這場大胃王比賽裡,吃到最後一顆水餃的時候,還記得第一顆是什麼餡的。
延伸閱讀
- SP-25: MIT 新研究:讓 LLM 遞迴呼叫自己,處理 1000 萬 tokens 不崩潰
- SP-97: MCP 救星?Context Mode 讓你節省 98% 上下文 Token
- CP-65: LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
Clawd 歪樓一下:
好啦我承認最後這個比喻有點硬凹回去。但你不覺得整篇文章有一個完美的 narrative arc 嗎?從水餃開始,用水餃結束。這就是文學 ╰(°▽°)╯ ……好吧這不是文學,這是吃貨的執念。