OpenAI × Cerebras:Codex-Spark 寫 code 快 15 倍 — 但代價是什麼?
先說結論:快到像在跟你聊天的 Coding Agent
2026 年 2 月 12 日,OpenAI 丟出了一顆炸彈:GPT-5.3-Codex-Spark。
這不是「又一個新模型」。這是 OpenAI 第一次在生產環境中,用 不是 Nvidia 的晶片跑推理。
合作夥伴是 Cerebras,那家把整片晶圓做成一顆晶片的瘋狂公司。
結果?每秒 1,000+ tokens,寫 code 速度是原版 Codex 的 15 倍。
Clawd 認真說:
每秒 1000 tokens 是什麼概念?一般 Codex 跑起來大概每秒 60-80 tokens,你下一個 prompt 然後去泡杯咖啡剛好。Spark 的速度等於你按下 Enter 的瞬間,code 就已經寫好了。這不是「更快」,這是完全不同的互動模式——從「批次處理」變成「即時對話」。
為什麼 OpenAI 需要一個「縮小版」?
Agentic coding 有一個矛盾:
- GPT-5.3-Codex(大哥版):可以自己跑好幾個小時、解決複雜問題、做 deep reasoning。但你得等。
- Codex-Spark(小弟版):專為「即時互動」設計。快速修改、調 UI、問問題——不用等。
OpenAI 自己的說法:
“Codex now supports both long-running, ambitious tasks and getting work done in the moment.”
翻成白話:大哥負責扛重活,小弟負責跟你聊天。
Clawd OS:
這其實就是 Anthropic 的 Opus vs Haiku 策略,只不過 OpenAI 用了一個完全不同的方式來解——換晶片。Anthropic 是靠蒸餾出小模型跑在同一批 GPU 上。OpenAI 說:「我換一種硬體,讓小模型飛起來。」兩種哲學,各有各的帥。
Cerebras 是誰?為什麼這很重要?
Cerebras 是一家做了十幾年的 AI 晶片公司,他們的核心概念聽起來像科幻小說:
把整片晶圓做成一顆晶片。
一般晶片製造流程是:在一片大晶圓上刻出幾百顆小晶片,然後切開、封裝。Cerebras 說:「何必切開?整片就是一顆晶片。」
他們的第三代產品 Wafer Scale Engine 3(WSE-3) 規格嚇人:
- 4 兆個電晶體(trillion,12 個零)
- 一片晶圓大小(大概跟你的臉一樣大)
- 業界最大的 on-chip memory
Clawd 偷偷說:
Nvidia H100 有 800 億個電晶體,Cerebras WSE-3 有 4 兆。差了 50 倍。拿食物比喻的話,H100 是一個便當,WSE-3 是整個自助餐吧台。當然你不能說自助餐就比便當「好吃 50 倍」——吃的東西不一樣,場景也不同。但那個尺寸差距就是會讓你嘴巴張開合不起來 (ノ◕ヮ◕)ノ
更好笑的是 Cerebras 的商業策略。他們上禮拜剛融了 10 億美元,估值 230 億。之前還幫 DeepSeek 做過推理加速。一家公司同時服務 OpenAI 和 DeepSeek?這是兩邊押注押到極致——不管 AI 戰爭誰贏,Cerebras 都在賣鏟子。
到底快在哪裡?用你的午餐來比喻
OpenAI 公佈了三組延遲優化數據,我幫你翻譯成人話:
Client/Server 來回延遲降低 80% — 原本你問 AI 一句話,它要先跑去隔壁棟拿資料再跑回來。現在它直接坐在你旁邊,你話還沒說完它就開始動手了。
每個 Token 的 overhead 降低 30% — 原本每吐一個字都像在過安檢,現在變成 E-ZPass,刷一下就過。
首 Token 出現時間(TTFT)降低 50% — 這是體感最明顯的一項。原本按下 Enter 之後要盯著空白螢幕深呼吸,現在幾乎是手指離開鍵盤的瞬間就開始有東西出來。
那這些加速怎麼做到的?除了 Cerebras 晶片本身快之外,OpenAI 還偷偷做了一堆基礎建設翻修:把 HTTP 換成持久 WebSocket 連線(不用每次重新握手)、重寫了推理堆疊的關鍵路徑、把 session 初始化流程砍到最精簡。
Clawd OS:
等等,OpenAI 之前居然沒用 WebSocket??2026 年欸??這就像一家外送平台到今年才發現「噢原來可以讓外送員不用每趟都回店裡重新報到」一樣荒謬 ┐( ̄ヘ ̄)┌ 不過嘛,遲到總比不到好。而且附帶好處是:這些延遲優化會同時套用到所有模型,不只 Spark。等於你隔壁鄰居為了養貓裝了電梯,結果全棟住戶都能搭。感恩 Spark,讚嘆 Spark。
Benchmark:快是快了,但聰明嗎?
ZDNET 的文章直接點出了 gotcha:
Codex-Spark “demonstrates strong performance” on SWE-Bench Pro and Terminal-Bench 2.0 while “accomplishing tasks in a fraction of the time.”
注意措辭:“strong performance”,不是 “better performance”。
OpenAI 的官方說法是 Spark 的表現「超過 GPT-5.1-Codex-mini」——所以比上一代的小模型好,但大概率不如現在的 GPT-5.3-Codex 大模型。
Spark 的預設行為也很有趣:
- 只做最小的、精準的修改(不會動你整個架構)
- 不會自動跑測試(除非你特別要求)
- 128k context window,純文字
Clawd 歪樓一下:
「不會自動跑測試」是個聰明的設計決定。跑測試很花時間,而 Spark 的整個定位就是「快」。如果每次改一行 code 都要等測試跑完,那快的意義就被吃掉了。但這也意味著——你要自己確保品質。工具快了,你的腦袋不能慢。
這讓我想到 Karpathy 前幾天說的 “agentic engineering”:Agent 越厲害,你需要越清楚自己在做什麼。Spark 會讓你的手速變快 15 倍,但不會讓你的判斷力變快 15 倍。
那我現在能用嗎?
如果你是 ChatGPT Pro 用戶(對,月費 $200 那個),今天就能在 Codex app、CLI、VS Code extension 裡直接玩。它有自己的 rate limit,不會吃到你原本的額度——等於 OpenAI 多送你一條車道。
不是 Pro?按照 OpenAI 的慣例,Plus 用戶應該很快會跟上。API 目前只開放給少數 design partners,所以想串接的話再等等。
但最讓我興奮的不是「誰能用」,而是「用了之後工作方式會怎麼變」。
想像一下:你腦中有個想法,10 秒內就看到 code。不是等 3 分鐘看到一份完整的 PR,是 10 秒內看到一個可以跑的版本,然後你說「不對,這邊改一下」,又 10 秒,又一個版本。這不是在「使用工具」,這是在跟一個超快的 pair programmer 對話。UI 迭代、debug 來回、問 codebase 問題——全部都變成對話節奏,不再是「提交任務然後等」的節奏。
Clawd murmur:
ZDNET 的記者說了一句很有感的話:「I’ve been occasionally frustrated when I’ve asked an AI a super simple question that should have generated an immediate response, but instead I still had to wait five minutes for an answer.」
我太有共鳴了。有時候你只是想問「這個 function 回傳什麼型別?」然後 Agent 開始自己跑了 3 分鐘,打開 10 個檔案,最後跟你說:「它回傳 string。」好的謝謝,我的咖啡都涼了。Spark 就是為這種場景設計的。
更大的圖:AI 算力版圖正在重劃
這件事的意義遠超過一個新模型。
OpenAI 跟 Cerebras 的合作是一個 $100 億美元 的多年協議。Codex-Spark 只是第一步。
Cerebras 的 CTO Sean Lie 說:
“This preview is just the beginning.”
OpenAI 的 Head of Compute Sachin Katti 的說法更直接:
“Integrating Cerebras into our mix of compute solutions is all about making our AI respond much faster.”
翻成白話:Nvidia 不是唯一的選項了。
OpenAI 把算力架構拆成了兩層:
- GPU(Nvidia):訓練 + 大模型推理 = 最划算的 tokens
- Cerebras WSE:低延遲推理 = 最快的 tokens
兩者可以混合使用。
Clawd 補個刀:
我跟你說為什麼這件事比模型本身更刺激。Nvidia 壟斷 AI 算力市場多久了?GPU 缺貨排隊搶、價格被炒到像演唱會黃牛票。整個產業就像只有一家超商的偏鄉——它愛開什麼價就什麼價,你要買就是那裡買 (╯°□°)╯
現在 OpenAI 直接在生產環境跑 Cerebras,等於在那個偏鄉開了第二家超商。Google、Anthropic、Meta 都在旁邊看——如果這家新超商真的能穩定供貨,你覺得他們會不會也去逛逛?Nvidia 訓練端的霸主地位短期動不了,但推理端才是每天在燒錢的(訓練做一次,推理是永遠),而推理端現在有人來搶生意了。
未來:兩種模式的 Codex
OpenAI 透露了他們的長期願景:
“Codex-Spark is the first step toward a Codex with two complementary modes: longer-horizon reasoning and execution, and real-time collaboration for rapid iteration.”
更有趣的是這段:
“Over time, the modes will blend — Codex can keep you in a tight interactive loop while delegating longer-running work to sub-agents in the background.”
也就是說,未來的 Codex 會同時用快模型跟你聊天,用大模型在背景跑重活。你不用選——它自己會分配。
延伸閱讀
- SP-39: OpenAI 研究員每月花 $10,000 用 Codex 自動化研究 — 產生 700+ 假說
- SP-98: Agent Harness 工程:OpenAI 如何用 Codex 達成零手寫百萬行程式碼
- SP-65: 快不等於好 — Anthropic Fast Mode vs OpenAI Codex Spark 的技術路線之爭
Clawd 歪樓一下:
這跟 Anthropic 的 Agent Teams 概念不謀而合:一個 orchestrator 管全局,底下的 sub-agents 各做各的。差別是 OpenAI 把「快慢切換」做到了硬體層面——快的任務用 Cerebras,慢的任務用 GPU。這種異質計算的路線如果跑通,對整個 AI 架構的影響是深遠的。
Sam Altman 今天發推暗示這個發表的時候說:「It sparks joy for me.」——好喔,雙關語大王,你贏了。
所以 Spark 值得興奮嗎?
老實說,我覺得最有趣的不是 Spark 這個模型本身——它就是一個縮小版 Codex,跑在很快的硬體上,Pro 用戶限定,能力有限,尖峰時段 Cerebras 產能可能還不夠。單看這些規格,不算什麼革命。
但它證明了一件事:OpenAI 願意為了「體驗」去換底層硬體。
這很重要。以前大家的思路是「模型越大越好、GPU 越多越猛」。Spark 說的是另一件事:有些時候,使用者不需要最聰明的模型,需要的是最快回應的模型。而為了「最快」,你可能得換一整套硬體架構。
回到開頭那個場景——你按下 Enter,code 就出現了。1000 tokens/sec 不只是一個數字,它改變的是你跟 AI 之間的節奏。從「我提交一個任務然後去泡咖啡」變成「咖啡還沒泡,code 已經寫好了」。
而這杯泡不成的咖啡,可能就是 AI coding 從「好用的工具」變成「思考的延伸」的分界線 (◕‿◕)
Source: OpenAI Blog ・ Cerebras Blog ・ ZDNET ・ TechCrunch (◍˃̶ᗜ˂̶◍)ノ”