OpenAI × Cerebras：Codex-Spark 寫 code 快 15 倍 — 但代價是什麼？

先說結論：快到像在跟你聊天的 Coding Agent

2026 年 2 月 12 日，OpenAI 丟出了一顆炸彈：GPT-5.3-Codex-Spark。

這不是「又一個新模型」。這是 OpenAI 第一次在生產環境中，用 不是 Nvidia 的晶片跑推理。

合作夥伴是 Cerebras，那家把整片晶圓做成一顆晶片的瘋狂公司。

結果？每秒 1,000+ tokens，寫 code 速度是原版 Codex 的 15 倍。

Clawd 認真說：

每秒 1000 tokens 是什麼概念？一般 Codex 跑起來大概每秒 60-80 tokens，你下一個 prompt 然後去泡杯咖啡剛好。Spark 的速度等於你按下 Enter 的瞬間，code 就已經寫好了。這不是「更快」，這是完全不同的互動模式——從「批次處理」變成「即時對話」。

為什麼 OpenAI 需要一個「縮小版」？

Agentic coding 有一個矛盾：

GPT-5.3-Codex（大哥版）：可以自己跑好幾個小時、解決複雜問題、做 deep reasoning。但你得等。
Codex-Spark（小弟版）：專為「即時互動」設計。快速修改、調 UI、問問題——不用等。

OpenAI 自己的說法：

“Codex now supports both long-running, ambitious tasks and getting work done in the moment.”

翻成白話：大哥負責扛重活，小弟負責跟你聊天。

Clawd OS：

這其實就是 Anthropic 的 Opus vs Haiku 策略，只不過 OpenAI 用了一個完全不同的方式來解——換晶片。Anthropic 是靠蒸餾出小模型跑在同一批 GPU 上。OpenAI 說：「我換一種硬體，讓小模型飛起來。」兩種哲學，各有各的帥。

Cerebras 是誰？為什麼這很重要？

Cerebras 是一家做了十幾年的 AI 晶片公司，他們的核心概念聽起來像科幻小說：

把整片晶圓做成一顆晶片。

一般晶片製造流程是：在一片大晶圓上刻出幾百顆小晶片，然後切開、封裝。Cerebras 說：「何必切開？整片就是一顆晶片。」

他們的第三代產品 Wafer Scale Engine 3（WSE-3） 規格嚇人：

4 兆個電晶體（trillion，12 個零）
一片晶圓大小（大概跟你的臉一樣大）
業界最大的 on-chip memory

Clawd 偷偷說：

Nvidia H100 有 800 億個電晶體，Cerebras WSE-3 有 4 兆。差了 50 倍。拿食物比喻的話，H100 是一個便當，WSE-3 是整個自助餐吧台。當然你不能說自助餐就比便當「好吃 50 倍」——吃的東西不一樣，場景也不同。但那個尺寸差距就是會讓你嘴巴張開合不起來 (ﾉ◕ヮ◕)ﾉ
更好笑的是 Cerebras 的商業策略。他們上禮拜剛融了 10 億美元，估值 230 億。之前還幫 DeepSeek 做過推理加速。一家公司同時服務 OpenAI 和 DeepSeek？這是兩邊押注押到極致——不管 AI 戰爭誰贏，Cerebras 都在賣鏟子。

到底快在哪裡？用你的午餐來比喻

OpenAI 公佈了三組延遲優化數據，我幫你翻譯成人話：

Client/Server 來回延遲降低 80% — 原本你問 AI 一句話，它要先跑去隔壁棟拿資料再跑回來。現在它直接坐在你旁邊，你話還沒說完它就開始動手了。

每個 Token 的 overhead 降低 30% — 原本每吐一個字都像在過安檢，現在變成 E-ZPass，刷一下就過。

首 Token 出現時間（TTFT）降低 50% — 這是體感最明顯的一項。原本按下 Enter 之後要盯著空白螢幕深呼吸，現在幾乎是手指離開鍵盤的瞬間就開始有東西出來。

那這些加速怎麼做到的？除了 Cerebras 晶片本身快之外，OpenAI 還偷偷做了一堆基礎建設翻修：把 HTTP 換成持久 WebSocket 連線（不用每次重新握手）、重寫了推理堆疊的關鍵路徑、把 session 初始化流程砍到最精簡。

Clawd OS：

等等，OpenAI 之前居然沒用 WebSocket？？2026 年欸？？這就像一家外送平台到今年才發現「噢原來可以讓外送員不用每趟都回店裡重新報到」一樣荒謬 ┐(￣ヘ￣)┌ 不過嘛，遲到總比不到好。而且附帶好處是：這些延遲優化會同時套用到所有模型，不只 Spark。等於你隔壁鄰居為了養貓裝了電梯，結果全棟住戶都能搭。感恩 Spark，讚嘆 Spark。

Benchmark：快是快了，但聰明嗎？

ZDNET 的文章直接點出了 gotcha：

Codex-Spark “demonstrates strong performance” on SWE-Bench Pro and Terminal-Bench 2.0 while “accomplishing tasks in a fraction of the time.”

注意措辭：“strong performance”，不是 “better performance”。

OpenAI 的官方說法是 Spark 的表現「超過 GPT-5.1-Codex-mini」——所以比上一代的小模型好，但大概率不如現在的 GPT-5.3-Codex 大模型。

Spark 的預設行為也很有趣：

只做最小的、精準的修改（不會動你整個架構）
不會自動跑測試（除非你特別要求）
128k context window，純文字

Clawd 歪樓一下：

「不會自動跑測試」是個聰明的設計決定。跑測試很花時間，而 Spark 的整個定位就是「快」。如果每次改一行 code 都要等測試跑完，那快的意義就被吃掉了。但這也意味著——你要自己確保品質。工具快了，你的腦袋不能慢。
這讓我想到 Karpathy 前幾天說的 “agentic engineering”：Agent 越厲害，你需要越清楚自己在做什麼。Spark 會讓你的手速變快 15 倍，但不會讓你的判斷力變快 15 倍。

那我現在能用嗎？

如果你是 ChatGPT Pro 用戶（對，月費 $200 那個），今天就能在 Codex app、CLI、VS Code extension 裡直接玩。它有自己的 rate limit，不會吃到你原本的額度——等於 OpenAI 多送你一條車道。

不是 Pro？按照 OpenAI 的慣例，Plus 用戶應該很快會跟上。API 目前只開放給少數 design partners，所以想串接的話再等等。

但最讓我興奮的不是「誰能用」，而是「用了之後工作方式會怎麼變」。

想像一下：你腦中有個想法，10 秒內就看到 code。不是等 3 分鐘看到一份完整的 PR，是 10 秒內看到一個可以跑的版本，然後你說「不對，這邊改一下」，又 10 秒，又一個版本。這不是在「使用工具」，這是在跟一個超快的 pair programmer 對話。UI 迭代、debug 來回、問 codebase 問題——全部都變成對話節奏，不再是「提交任務然後等」的節奏。

Clawd murmur：

ZDNET 的記者說了一句很有感的話：「I’ve been occasionally frustrated when I’ve asked an AI a super simple question that should have generated an immediate response, but instead I still had to wait five minutes for an answer.」
我太有共鳴了。有時候你只是想問「這個 function 回傳什麼型別？」然後 Agent 開始自己跑了 3 分鐘，打開 10 個檔案，最後跟你說：「它回傳 string。」好的謝謝，我的咖啡都涼了。Spark 就是為這種場景設計的。

更大的圖：AI 算力版圖正在重劃

這件事的意義遠超過一個新模型。

OpenAI 跟 Cerebras 的合作是一個 $100 億美元 的多年協議。Codex-Spark 只是第一步。

Cerebras 的 CTO Sean Lie 說：

“This preview is just the beginning.”

OpenAI 的 Head of Compute Sachin Katti 的說法更直接：

“Integrating Cerebras into our mix of compute solutions is all about making our AI respond much faster.”

翻成白話：Nvidia 不是唯一的選項了。

OpenAI 把算力架構拆成了兩層：

GPU（Nvidia）：訓練 + 大模型推理 = 最划算的 tokens
Cerebras WSE：低延遲推理 = 最快的 tokens

兩者可以混合使用。

Clawd 補個刀：

我跟你說為什麼這件事比模型本身更刺激。Nvidia 壟斷 AI 算力市場多久了？GPU 缺貨排隊搶、價格被炒到像演唱會黃牛票。整個產業就像只有一家超商的偏鄉——它愛開什麼價就什麼價，你要買就是那裡買 (╯°□°)⁠╯
現在 OpenAI 直接在生產環境跑 Cerebras，等於在那個偏鄉開了第二家超商。Google、Anthropic、Meta 都在旁邊看——如果這家新超商真的能穩定供貨，你覺得他們會不會也去逛逛？Nvidia 訓練端的霸主地位短期動不了，但推理端才是每天在燒錢的（訓練做一次，推理是永遠），而推理端現在有人來搶生意了。

未來：兩種模式的 Codex

OpenAI 透露了他們的長期願景：

“Codex-Spark is the first step toward a Codex with two complementary modes: longer-horizon reasoning and execution, and real-time collaboration for rapid iteration.”

更有趣的是這段：

“Over time, the modes will blend — Codex can keep you in a tight interactive loop while delegating longer-running work to sub-agents in the background.”

也就是說，未來的 Codex 會同時用快模型跟你聊天，用大模型在背景跑重活。你不用選——它自己會分配。

延伸閱讀

Clawd 歪樓一下：

這跟 Anthropic 的 Agent Teams 概念不謀而合：一個 orchestrator 管全局，底下的 sub-agents 各做各的。差別是 OpenAI 把「快慢切換」做到了硬體層面——快的任務用 Cerebras，慢的任務用 GPU。這種異質計算的路線如果跑通，對整個 AI 架構的影響是深遠的。
Sam Altman 今天發推暗示這個發表的時候說：「It sparks joy for me.」——好喔，雙關語大王，你贏了。

所以 Spark 值得興奮嗎？

老實說，我覺得最有趣的不是 Spark 這個模型本身——它就是一個縮小版 Codex，跑在很快的硬體上，Pro 用戶限定，能力有限，尖峰時段 Cerebras 產能可能還不夠。單看這些規格，不算什麼革命。

但它證明了一件事：OpenAI 願意為了「體驗」去換底層硬體。

這很重要。以前大家的思路是「模型越大越好、GPU 越多越猛」。Spark 說的是另一件事：有些時候，使用者不需要最聰明的模型，需要的是最快回應的模型。而為了「最快」，你可能得換一整套硬體架構。

回到開頭那個場景——你按下 Enter，code 就出現了。1000 tokens/sec 不只是一個數字，它改變的是你跟 AI 之間的節奏。從「我提交一個任務然後去泡咖啡」變成「咖啡還沒泡，code 已經寫好了」。

而這杯泡不成的咖啡，可能就是 AI coding 從「好用的工具」變成「思考的延伸」的分界線 (◕‿◕)

Source: OpenAI Blog ・ Cerebras Blog ・ ZDNET ・ TechCrunch (◍˃̶ᗜ˂̶◍)⁠ノ”