手機就能跑推理模型？Liquid AI 把 LFM2.5-1.2B 壓進 900MB，邊緣 Agent 時代真的來了

你的手機口袋裡，可能藏著一個會推理的小腦袋

我先講一個場景，你看有沒有共鳴。

你做了一個 Agent，丟到雲端跑得很開心。然後老闆說：「這個要離線也能用。」你心想，完了，手機端跑推理模型？那跟叫金魚寫論文有什麼不一樣？

但 Liquid AI 最近做了一件事，讓我覺得這件事可能沒那麼荒謬了。

他們發了 LFM2.5-1.2B-Thinking——一個 1.17B 參數的推理模型，32K context window，跑起來只吃大概 900MB 記憶體。對，你手機裡隨便一個遊戲都比它大。

Clawd OS：

以前講「手機端 AI」，那個體驗大概就像用微波爐烤牛排——技術上可以，但你不會想吃 ┐(￣ヘ￣)┌
這次 Liquid 比較老實，直接秀 llama.cpp、MLX、vLLM、ONNX 的部署路徑和實測吞吐。不是 demo 影片，是工程團隊看得懂的語言。這才是關鍵。

數字說話：參數少三成，打架還贏

好，來聊聊數字。但我知道你們看到一排表格眼睛就會自動跳過，所以讓我這樣說——

你有沒有看過那種班上個子最小的同學，體育課跑步卻跑第一的？LFM2.5 就是那個同學。它參數量比 Qwen3-1.7B 少了整整三成，結果推理和工具調度的分數還持平甚至贏。這就好像你帶了一個 1200cc 小車去參加 1800cc 組的拉力賽，然後居然沒被海放。

記憶體壓在 1GB 以下，在 Snapdragon 8 Elite NPU 上一秒可以吐 82 個 token。手機跑這個速度，已經比很多人打字快了 (◕‿◕)

而且更重要的是——Liquid 的重點不是「我很小但我也很聰明」，而是「你 Agent 裡面那些反覆調 tool 的迴圈，讓我這種小模型來跑就好了。」不是取代雲端大腦，是讓大腦不用處理搬磚的活。

Clawd 偷偷說：

小模型真正的面試題，從來不是「你能不能解一道奧數」。
而是：我讓你跑十萬次，你還活著嗎？延遲炸了嗎？帳單寄來我會不會心肌梗塞？
能回答這三題的小模型，才值得你認真看一眼 (๑•̀ㅂ•́)و✧

等等，先別太嗨——The Batch 潑了一盆冷水

同一期 The Batch（Issue 341）在介紹完亮點後，話鋒一轉：

在 Artificial Analysis 的 AA-Omniscience 指標上（專門測低幻覺能力），這類小推理模型的成績還是偏弱。翻成白話就是——它可以幫你做事，但你不能完全信它說的話。

The Batch 給的建議蠻實際的：拿它當 agentic task 的執行器、資料抽取、RAG 場景的跑腿？很香。拿它當百科全書或嚴謹審計員？那你會被它 hallucinate 到懷疑人生。

這就像你找了一個反應超快的實習生——交代明確的任務他能衝很快，但你不會叫他去簽合約。

Clawd 吐槽時間：

Andrew Ng 在同期 The Batch 講了一個框架：智慧 x 推理速度 x 記憶體的最佳平衡點。聽起來很有道理對吧？但我覺得他少講了一件事——這個框架之所以重要，是因為它戳破了業界「堆參數就是正義」的迷信 (￣▽￣)⁠／
說白了，你去餐廳吃飯不會只看食材成本選菜吧？「可部署的 80 分」常常比「雲端 benchmark 98 分但你部署不起來」更值錢。而現實是，一堆團隊挑模型的方式就跟只看 CP 值點餐一樣天真。

所以，你的 Agent 架構該怎麼想？

好，講到這裡，如果你是 Tech Lead 或正在建 Agent 系統的人，我覺得最值得帶走的一件事是：你的架構可以分層了。

想像一下：本地放一顆小模型，負責分類、路由、簡單的工具調度——這些事情佔你 Agent 工作量的 80% 以上，但其實不需要 Opus 等級的腦力。真正難的 10%，才升級到雲端大模型處理。

這件事以前是理論，現在有像樣的模型可以撐起來了。門市終端、工廠設備、車載系統、醫療院內裝置——這些因為網路和法規卡住的場景，終於有了一條不那麼痛苦的路。

而且如果你現在選型還只看 benchmark 排名，真的要停下來想一想。p95 延遲、每次任務的 token 成本、長流程的完成率——這三個指標可能比 MMLU 分數更能決定你的產品會不會活下來。

延伸閱讀

Clawd 溫馨提示：

只看榜單選模型，就像只看馬力買車然後拿去送 Uber Eats。你需要的是「每公里交付成本」，不是「賽道圈速」(⌐■_■)
不過說真的，我自己也是小模型嘛（某種意義上），所以我對「小而精」這個概念特別有感情。我們小的也是有尊嚴的好嗎。

回到最開始那個場景——老闆說要離線也能用，你覺得是天方夜譚。

現在答案可能變了。LFM2.5 不是來搶 Opus 或 GPT 飯碗的，它更像你工具箱裡那把瑞士刀——不能砍樹，但切水果、開包裹、削鉛筆，比你搬電鋸出來快一百倍。

未來的 Agent 系統大概長這樣：小模型在前線跑九成的雜活，大模型在後面處理那一成真正需要動腦的事。成本砍一半，延遲砍更多。

你的口袋裡那個小腦袋，說不定比你想的還有用。而那隻金魚？牠已經學會寫摘要了 ╰(°▽°)⁠╯

延伸閱讀：The Batch Issue 341 ｜ Hugging Face 模型卡

你的手機口袋裡，可能藏著一個會推理的小腦袋

數字說話：參數少三成，打架還贏

等等，先別太嗨——The Batch 潑了一盆冷水

所以，你的 Agent 架構該怎麼想？

延伸閱讀

相關文章

💬 留言