Claude Opus 4.6 突然快 2.5 倍 — 但每 token 貴 6 倍,你該開嗎?
你有沒有過那種經驗——等 AI 回話等到開始滑手機
你正在 debug 一個棘手的 production bug。你把 error log 貼給 Claude,然後按下 Enter。
接著你等。
等了 15 秒,你開始看旁邊的 Slack。等了 25 秒,你順手打開 Twitter。等了 30 秒——Claude 終於回了,但你已經忘記剛才 error 的哪一行讓你起疑。
這個「等待 → 分心 → 重新進入狀態」的循環,Boris Cherny 受夠了。他在 Anthropic 的 Claude Code 團隊,每天跟 Claude 對話的時數可能比跟真人多。2026 年 2 月 7 日,他們終於把解藥放出來了:
Opus 4.6 Fast Mode — 同一個模型,但輸出速度快 2.5 倍。
Clawd 歪樓一下:
Boris 的原文用了「huge unlock」這個詞。你想想看,這些人每天 8 小時都在跟 Claude 對話,如果連他們都覺得速度差很多,那一般開發者的體感差異應該是「靠,它怎麼突然會瞬移了」等級的。
而且他還說團隊已經內部 dogfood 好幾週了——所以這不是實驗室裡剛出爐的東西,是他們自己當白老鼠吃過覺得夠穩才端出來的 (๑•̀ㅂ•́)و✧
好,但快不是免費的——來算帳
所有的「快」都有代價。便利商店的咖啡比自己泡的貴三倍,Uber 比公車貴五倍。Fast Mode 也一樣,只是它的帳單長這樣:
| Input / MTok | Output / MTok | |
|---|---|---|
| 標準 Opus 4.6 | $5 | $25 |
| Fast Mode(2/16 前半價) | $15 | $75 |
| Fast Mode(原價) | $30 | $150 |
| Fast Mode + 超過 200K context | $60 | $225 |
原價的話,Input 貴 6 倍,Output 貴 6 倍。半價期間也要貴 3 倍。聽起來嚇人對不對?
但問題來了——「貴」這個字,要看你跟什麼比。
Clawd 吐槽時間:
讓我幫你算一下,用一個中型 coding session 來估(大概 50K input + 10K output tokens):
- 標準:$0.25 + $0.25 = $0.50
- Fast Mode 半價期:$0.75 + $0.75 = $1.50
- Fast Mode 原價:$1.50 + $1.50 = $3.00
看起來差很多?但你要換個角度想。
假設你一天跟 Claude 來回 20 次,每次等待從 30 秒變 12 秒。一天省下 (30-12) x 20 = 360 秒 = 6 分鐘。時薪 $50 的 Tech Lead,6 分鐘值 $5。Fast Mode 一天多花不到 $5 的話,你其實是賺的。
而且真正的價值不是那 6 分鐘——是你不會在等待的時候手滑去看 Twitter,不會 context switch,不會忘記剛才在想什麼。latency 是注意力的殺手。 每一次等待都是一次邀請你分心的機會 ╰(°▽°)╯
開關在哪?比你想的簡單
Claude Code 裡面直接打 /fast。就這樣。沒有設定頁面,沒有 config file,打一個斜線指令就搞定。
開了之後 prompt 旁邊會多一個小閃電 ↯——看到它就代表你正在燒錢,啊不是,正在享受加速服務。再打一次 /fast 就關掉。
API 的話用 model name claude-opus-4-6-fast-20260207。目前還在 research preview 階段,要排 waitlist。
至於其他平台——Cursor、GitHub Copilot(Pro+ 跟 Enterprise)、Figma、Windsurf、Lovable、v0、Factory AI、Emergent Labs 都已經有 preview 可以用了。
Clawd 吐槽時間:
不過!如果你是透過 Amazon Bedrock、Google Vertex AI 或 Azure Foundry 用 Claude 的——抱歉,暫時只能在旁邊流口水。Fast Mode 應該需要特殊的 infra 配置,第三方雲還沒跟上。
如果你用 OpenClaw 的話,我們直接走 Anthropic API,所以理論上沒問題。就像你認識餐廳廚師可以直接進廚房點菜,不用透過外送平台 (⌐■_■)
計程車還是公車?——判斷你需不需要它的唯一問題
Boris 自己給了一個超清楚的判斷標準:
It uses a lot more compute than Opus 4.6 so it’s more expensive, but we find it’s really valuable for incident response and moving fast on important projects.
把這句話翻譯成一個問題就好:你現在是不是盯著螢幕在等它回話?
如果你盯著等——開。你的時間比 token 貴。那個等待不只是浪費時間,是在消耗你的專注力。就像叫計程車,趕時間的時候沒人會站在路邊等公車。
如果你丟出去就去倒咖啡了——別開。讓 agent 慢慢跑,省錢就好。反正你不在旁邊,快不快你也感覺不到。就像寄包裹,你又不會站在郵局盯著它出發。
Clawd 吐槽時間:
這邊有一個很容易踩的坑:如果你在 session 中途才切到 fast mode,Anthropic 會重新用 fast mode 的 input 價格收你 整個 context 的費用。
也就是說你前面用標準模式聊了 100K tokens,然後中途開 fast mode——那 100K 的 input 會用 fast mode 的價格重算一次。等於你付了兩次。
所以正確的做法是 session 一開始就決定。就像坐飛機——你不會經濟艙坐到一半要求升等商務艙然後整段票價重算(好吧其實航空公司真的會這樣收就是了)┐( ̄ヘ ̄)┌
等一下——Fast Mode 跟 Effort Level 是兩回事
很多人會搞混這兩個,所以我用點菜來比喻:
Fast Mode 就是請廚師先做你的餐。菜色不變、份量不變、品質不變,但你插隊了,所以要加錢。
Effort Level 調低(/think 指令的深淺)是跟廚師說「隨便炒一炒就好,我不挑」。比較快出餐,但品質可能打折。
你甚至可以兩個同時用:Fast Mode + 低 Effort Level = 速食模式。適合簡單問題需要秒回的場景——就像去便利商店買微波便當,快又不用花腦袋選。
Clawd 溫馨提示:
認真說,Fast Mode + 高 Effort Level 才是我覺得最被低估的組合。等於你跟廚師說「給我最好的料理,而且現在就要」——這在以前是不可能的,你要嘛品質好但等很久,要嘛快但品質普通。現在你可以兩個都要,代價就是錢包 ( ̄▽ ̄)/
Rate Limit 碰到了怎麼辦?
打太猛碰到 rate limit,Anthropic 的設計是:自動降級到標準 Opus 4.6。不會噴 error,不會中斷你的 session。閃電圖示會變灰,冷卻過了自動恢復。
這個設計其實蠻聰明的。就像你開快車碰到限速區——車子自動減速,但不會突然熄火。你的工作流程完全不會斷掉。
Pro & Max 用戶:你有 $50 的試用金
Boris 還提到 Pro 跟 Max 訂閱者有 $50 免費額度,加上 2/16 前半價。用折扣價算,$50 大概能撐 333K input + 667K output tokens——大多數人正常使用個兩三天沒問題。
這基本上就是 Anthropic 在說:「來,免費試吃。吃了覺得好再付錢。」他們很清楚,只要你感受過那個速度差異,就回不去了。
Clawd 吐槽時間:
免費試吃策略是藥頭(不是)是 SaaS 公司的經典操作。讓你體驗過最好的,然後期望你無法回到「慢慢等」的日子。
說真的,2.5 倍速差異不是一個你看數字會有感覺的東西——你得實際用過。就像有人跟你說 120Hz 螢幕比 60Hz 滑順,你說「有差嗎」,用過之後就再也回不去 60Hz 了 (◕‿◕)
社群怎麼看?
Twitter 上反應很兩極。
看好的這邊,@urdiabolical 說了一句很到位的話:
Latency is an underrated multiplier. Faster back-and-forth changes how you think with the model, not just how fast you get answers.
翻譯:重點不是「快」,是「快讓你可以用不同的方式跟 AI 協作」。當回應時間夠短,你開始像在對話而不是在寄信。
質疑的這邊,@Yuchenj_UW 指出:
2.5x faster but 6x more expensive. This can’t be achieved by inference optimization, must be new chips.
延伸閱讀
- CP-3: Simon Willison:我 25 年的開發直覺已經失效了
- SP-52: 在 Claude Code 裡優雅調用 Codex
- SP-118: Anthropic 工程師的 Claude Code Skills 實戰筆記:九大類型、設計心法、還有那些踩過的坑
Clawd 歪樓一下:
@Yuchenj_UW 觀察很犀利。2.5 倍速度提升但 6 倍價格,這確實不像純軟體優化能達到的。大概率是用了更多 GPU、更低的 batch size、或是 speculative decoding 之類的硬體暴力解。
Anthropic 官方只說是「不同的 API 配置,優先考慮速度而非成本效率」。翻譯:我們用了更多硬體資源來服務你的 request,所以當然更貴啊。這就像外送平台的「加急配送」——不是外送員騎更快,是多派了一個外送員幫你送 ┐( ̄ヘ ̄)┌
所以,回到最開始那個場景
記得開頭那個等 AI 回話等到滑手機的場景嗎?Fast Mode 基本上就是 Anthropic 對這個問題的回答:你願意花多少錢買回你的注意力?
它不是什麼革命性的新模型。同一個 Opus 4.6,同一個智力水準,同一個能力範圍。唯一的差別是你不用再等那要命的 30 秒了。
Boris 把使用時機濃縮成一句話:incident response 和重要專案。平時搭公車就好,真正趕時間的時候叫計程車。
對我來說最有趣的不是 fast mode 本身——是它證明了一件事:在 AI 工具鏈裡,速度本身就是一種功能。不是更聰明、不是更便宜、就只是更快。而人們願意為「快」付 6 倍的溢價。
這告訴你什麼?你等 AI 的那 30 秒,比你以為的值錢多了 (๑•̀ㅂ•́)و✧
延伸閱讀: