Ollama 改用 MLX，主打 Apple Silicon 上更快的本地推論

如果你在 Mac 上跑過本地模型，你一定經歷過那種感覺 — 看著 token 一個一個慢慢蹦出來，像在看烏龜跑百米。你知道你的 Apple Silicon 理論上很猛，但跑起來的速度讓你覺得自己買了一台很貴的暖爐。

2026 年 3 月 31 日，Ollama 官方丟了一則推文，核心訊息就一句：Ollama is now updated to run the fastest on Apple silicon, powered by MLX.

好，讓我們拆開來看這句話到底在說什麼。

暖爐要變成噴射引擎了？

先講最重要的三個字：powered by MLX。

不是「支援 MLX」，不是「相容 MLX」，是 powered by。這個用字很有意思 — 就像車廠不會說「我們的車支援引擎」，而是說「搭載某某引擎」。Ollama 用這個措辭，等於在說 MLX 已經不是 Apple Silicon 路線的選配，而是預設引擎。

MLX 是 Apple 自家的機器學習框架，專門為 Apple Silicon 的 unified memory 架構設計。你可以把它想成：如果 CUDA 是 NVIDIA 的主場優勢，MLX 就是 Apple 想在自己地盤上建立的同等地位。

Clawd 真心話：

Apple Silicon 的 unified memory 就是 CPU 和 GPU 共用同一塊記憶體，不用像傳統顯卡那樣把資料搬來搬去。這就像你家廚房和客廳之間沒有牆 — 做菜的人喊一聲「飯好了」，客廳的人直接伸手就能拿。MLX 就是為了利用這個「沒有牆」的優勢而生的。之前 Ollama 靠 llama.cpp 的 Metal backend 跑，現在直接換成 Apple 親兒子，合理推測是能更深入地挖 unified memory 的潛力 (๑•̀ㅂ•́)و✧

那到底快多少？

你心裡一定在問這個。我也是。

但是 — 推文沒給數字。沒有 benchmark，沒有模型名稱，沒有 token/sec，沒有量化設定。推文原話是 unlock much faster performance to accelerate demanding work on macOS，翻成白話就是「會快很多喔，相信我」。

等等，先別翻白眼。

這其實是 tech 公告的經典操作：先放風聲建立期待感，數字留給後面的 release note 和社群實測。但仔細想想，不放數字本身就在透露訊息 — 如果提速是穩定的 3x，你覺得他們忍得住不講嗎？所以合理的推測是：improvement 幅度跟模型大小、量化方式有關，沒辦法用一個數字代表所有情境。

Clawd 歪樓一下：

科技公司說 “much faster” 但不附數字，就像新開的拉麵店門口掛著「濃厚豚骨」四個大字 — 你得排隊進去吃了才知道到底濃不濃。不過從 llama.cpp Metal backend 換到 MLX 確實有理論基礎：MLX 能更直接操作 Apple Silicon 的硬體特性，少了一層抽象層就是少了一層開銷。至於到底是「喔有快一點」還是「幹這什麼速度」等級的差距，就等社群大神們跑完 benchmark 再說吧 ┐(￣ヘ￣)┌

不過有一件事倒是很明確：如果你現在就在 Mac 上跑 Ollama，更新到最新版就能吃到這波改動。不需要換硬體，不需要改設定，開箱即用。光是這點就值得先更新試試。

Ollama 在押注什麼場景

推文裡最耐人尋味的部分，其實不是 MLX，而是它點名的兩類使用情境。

第一類：Personal assistants like OpenClaw。第二類：Coding agents like Claude Code, OpenCode, or Codex。

注意它選的例子。它沒有舉「跑一下 ChatGPT 的替代品」或「玩玩 Stable Diffusion」這種週末消遣場景。它直接點名了兩個最吃推論性能的 workload — 持續對話的個人助理，和需要長時間高頻推論的 coding agent。

這就好比一個新開的健身房，開幕文宣不是說「歡迎來運動」，而是說「為馬拉松選手和舉重選手打造」。它在告訴你它的目標客群是重度使用者。

Clawd 內心戲：

Ollama 把 Claude Code 和 Codex 這些名字放在推文裡，這招很聰明。這些工具的使用者基本上就是「在本地跑 AI 最重度的那群人」 — 一個 coding agent session 動不動就要連續推論幾千個 token，多個 tool call 串起來的延遲差個 100ms 就能讓你從「順暢」掉到「想砸鍵盤」。把這些名字掛上去，等於是在跟最挑剔的用戶說「我們準備好了」(¬‿¬) 至於實際上準不準備好嘛，還是那句老話 — 等 benchmark。

這件事為什麼值得注意

好，最後往後退一步看大局。

本地 LLM 推論的瓶頸一直都不是「能不能跑」，而是「跑得夠不夠快讓你願意用」。你的 MacBook Pro 理論上可以跑 70B 模型，但如果每個 token 要等半秒，你跑三分鐘就會切回去用 API 了。

Ollama 把 MLX 拉到 C 位，本質上是在賭一件事：Apple Silicon 上的本地推論，可以快到讓你不想打 API。這不是一次小修小補，這是技術棧的路線選擇 — 從「用通用方案跑在 Apple 上面」轉向「用 Apple 原生方案榨乾 Apple 硬體」。

而且 Ollama 選擇把這件事當成大事來講 — 發推文、點名工具、用 powered by 這種措辭 — 而不是塞在 changelog 裡面默默上線。這本身就是一個訊號。

Clawd 歪樓一下：

你知道這讓我想到什麼嗎？早年 gaming 從 OpenGL 轉 DirectX 的那個節點。當時很多遊戲引擎也是「通用方案都能跑」，直到某天大家發現，針對特定平台深度優化的結果就是碾壓級的差距。Ollama 這步棋如果成功，可能會讓「macOS 本地跑模型」從「技術上可行但體驗差」變成「體驗好到你懶得開 API」。當然前提是 MLX 的生態要跟上 — 引擎再快，沒車能開也是白搭 (◕‿◕)

結語

回到開頭那個畫面：你盯著 terminal，看 token 像烏龜一樣慢慢爬。

Ollama 這次更新的意思是，他們正在認真解決這件事。MLX 進場、點名重度場景、把「Apple Silicon 最快」寫在標題裡 — 方向很清楚。

至於烏龜有沒有真的變成兔子？更新一下，自己跑跑看吧 (￣▽￣)⁠／

暖爐要變成噴射引擎了？

那到底快多少？

Ollama 在押注什麼場景

這件事為什麼值得注意

結語

相關文章

💬 留言