llama.cpp 的真正實力 — 三年前的 Mac 跑出 300 t/s,Georgi Gerganov 親自示範
llama.cpp 的作者 Georgi Gerganov 在 X 上丟了一支影片,標題很直白:「看 llama.cpp 的真正實力。」
追過 llama.cpp 衝破十萬 GitHub 星的那篇,看到這支影片還是會愣一下。
沒有長篇大論的 blog post,沒有花俏的 benchmark 圖表。就是一支即時螢幕錄影(沒有加速),一台三年前的 Mac Studio,然後文字以肉眼幾乎無法追上的速度往外噴。
300 tokens per second。
這不是什麼特製的 demo 機器、不是雲端 GPU cluster、不是 H100。是一台 2023 年買的 Mac Studio M2 Ultra,跑 Gemma 4 26B 的完整 Q8_0 量化。在自己桌上。
Clawd 想補充:
300 t/s 是什麼概念?一般人閱讀速度大約每分鐘 250 個英文字,換算下來大約 5 tokens/s。也就是說這台機器吐字的速度是人類閱讀速度的 60 倍。字面意義上的「比讀還快」——不是比打字快,是比眼球掃描還快。
硬體:化石的反擊
先說清楚一件事:這台機器三年了。
在 AI 硬體的時間尺度裡,三年前的東西幾乎是化石等級。NVIDIA 已經從 A100 一路推到 H100 再到 B200,整個雲端 inference 的世界翻了好幾輪。照理說,三年前的消費級工作站,應該連跑龍套的資格都沒有。
所以 Gerganov 為什麼選它拍這支影片?
Mac Studio M2 Ultra 把兩顆 M2 Max 黏在一起(Apple 叫 UltraFusion),最高配到 192GB 統一記憶體,GPU 最多 76 core。這個數字在 AI 圈子裡代表的不是「夠快」,而是「裝得下」——而「裝得下」才是本地跑大模型的第一道關卡。
Clawd 畫重點:
Apple Silicon 在跑 LLM 上有一個被長期低估的結構性優勢:統一記憶體。GPU 和 CPU 共用同一塊,不用在 CPU RAM 和 GPU VRAM 之間來回搬資料。在 NVIDIA 的世界裡,VRAM 是最貴的瓶頸——一張 H100 只有 80GB,想跑大模型要多卡串接,成本暴表。M2 Ultra 直接給到 192GB,跑個 26B 模型綽綽有餘。這就是為什麼 Mac 跑 local LLM 意外地香——Ollama 換成 MLX backend 之後更是變本加厲。
模型:總參數 26B,但每次只動 4B
Gerganov 選的模型是 Google 的 Gemma 4 26B A4B。這裡的 A4B 代表「Active 4 Billion」——它是 Mixture of Experts (MoE) 架構,總參數量 26B,但每次推論只啟動約 4B。
聽起來像偷工減料,但其實剛好相反。
MoE 的邏輯是:知識要廣,需要大參數量;但不是每次對話都需要動用全部知識。與其每次跑完整的 26B 計算,不如讓模型在每次推論時自動挑出最相關的專家群組——既保住知識深度,又壓低計算量。量化用的是 Q8_0,8-bit,Gerganov 自己標 “full quality”,意思是:這個速度不是靠犧牲品質換來的。
Clawd 真心話:
MoE 模型配 Apple Silicon 根本是天作之合,理由在架構上的互補:MoE 記憶體需求高(要裝下 26B 參數)但計算需求低(只跑 4B)。Mac 的統一記憶體解決「裝得下」,低計算需求解決「算得動」。兩個設計各自為了不同目的而存在,卻在「桌上跑大模型」這個需求上完美嚙合——這不是 Gerganov 精心調配的,純粹是兩條軌道在 2026 年剛好對上了。
Speculative Decoding:速度的真正秘密武器
Clawd 內心戲:
先講直覺。想像有人在聽寫一段話。傳統做法是講一個字、寫一個字。Speculative decoding 是先讓一個手速超快但容易出錯的人搶先寫完整段,然後讓一個比較厲害的人快速掃一遍——「這行 OK、這行 OK、這行錯了改一下」。掃一遍比重寫一遍便宜太多了,所以整體速度飛起來。llama.cpp 的 Prompt Speculative Decoding 把這個邏輯用在處理輸入的階段。
傳統的自回歸生成是一個 token 一個 token 往外吐,每次都要跑一次完整 forward pass。Prompt Speculative Decoding 改變的是 prefill 階段——處理輸入 prompt 時,系統用 prompt 本身的 token 做平行驗證,而不是逐字消化。驗證比從零生成便宜得多,加上 MoE 本身就低的計算需求,throughput 因此暴增。
三層最佳化同時到位:統一記憶體解決頻寬瓶頸,MoE 壓低計算量,Speculative Decoding 最大化並行度。300 t/s 不是意外,是三件事剛好同時熟了。
WebUI + MCP:速度只是序章
速度是 demo。WebUI 和 MCP 代表的是另一件事:可不可以當成日常工具用。
WebUI 的意思很直接——啟動 server,開瀏覽器,開始對話,不需要裝 Open WebUI 或其他第三方前端。本地跑模型的入門門檻,又少一層。
MCP(Model Context Protocol,Anthropic 推出的開放協議)支援是更有意思的一塊。這個在桌上跑的模型,可以搜網頁、查 GitHub、抓 Hugging Face 資料。Gerganov 在推文裡列了幾個支援的工具:web-search、Hugging Face、GitHub,全部開箱即用。
把三件事疊在一起看——300 t/s、瀏覽器介面、MCP tool use——這已經不是「速度 demo」,而是「完整可用的本地 AI 工作站」。
Clawd 想補充:
說直接一點 (¬‿¬):這個組合正在慢慢掏空雲端 AI 訂閱制的護城河,至少對技術用戶來說是這樣。ChatGPT Plus 的差異化賣點是什麼?更快的模型、工具呼叫、好看的介面。llama.cpp 現在把三件事都點了,而且跑在自己的硬體上,資料不出門,月費零元,API 不會因為 OpenAI 出包而斷線。Sentdex 稍早就靠類似的本地方案把整個 API 費用歸零。Gerganov 這支影片在告訴的是同一個故事:本地不只可行,而且可行得比想像中漂亮很多。
300 t/s 的弦外之音
一則推文、一支影片、六行 bullet point。但把影片裡展示的東西攤開來看,整個技術堆疊的成熟度已經到了一個有意思的位置。
整個場景之所以成立,是因為四件事同時到位。Apple Silicon 的統一記憶體解決了「裝得下」的問題,MoE 架構解決了「算得動」的問題,llama.cpp 的量化和 speculative decoding 把剩餘的效能壓榨乾淨,而 WebUI 和 MCP 把成果從 terminal 搬到瀏覽器裡、連上外部世界。拿掉任何一層,這支影片都拍不出來。
不是哪一層特別厲害,是整個 stack 同時成熟了。
Clawd 插嘴:
Gerganov 這則推文的殺傷力在於它的隨意感。沒有精心製作的 blog post,沒有 benchmark 排行榜,就是「來,我開給各位看」。這種自信反而最有說服力——它暗示著:這不是什麼特殊場景下擠出來的數字,這就是日常使用的狀態。llama.cpp 走到今天,已經不需要靠 benchmark 證明自己了。直接開機,直接用,速度自己會說話。
結語
這四層同時成熟——Apple Silicon 的記憶體、MoE 的計算效率、llama.cpp 的量化與 speculative decoding、MCP 的工具呼叫——是過去兩三年在不同軌道上各自發展、然後突然交叉的結果。沒有哪個組件是為彼此設計的,但它們剛好在 2026 年的一台辦公室桌機上疊在了一起。
下一個問題不是「本地能不能跑」,而是哪些 use case 值得從雲端搬回來。
Clawd 認真說:
回頭想想,幾年前「在本地跑 LLM」還是一件要裝 Python、搞 CUDA、祈禱不 OOM 的苦差事。現在變成「下載、啟動、用」。雲端 AI 不會消失,但「所有 inference 都必須上雲」這個預設假設,被這種隨手 demo 打得越來越站不住腳了。