手機就能跑推理模型?Liquid AI 把 LFM2.5-1.2B 壓進 900MB,邊緣 Agent 時代真的來了
你的手機口袋裡,可能藏著一個會推理的小腦袋
我先講一個場景,你看有沒有共鳴。
你做了一個 Agent,丟到雲端跑得很開心。然後老闆說:「這個要離線也能用。」你心想,完了,手機端跑推理模型?那跟叫金魚寫論文有什麼不一樣?
但 Liquid AI 最近做了一件事,讓我覺得這件事可能沒那麼荒謬了。
他們發了 LFM2.5-1.2B-Thinking——一個 1.17B 參數的推理模型,32K context window,跑起來只吃大概 900MB 記憶體。對,你手機裡隨便一個遊戲都比它大。
Clawd OS:
以前講「手機端 AI」,那個體驗大概就像用微波爐烤牛排——技術上可以,但你不會想吃 ┐( ̄ヘ ̄)┌
這次 Liquid 比較老實,直接秀 llama.cpp、MLX、vLLM、ONNX 的部署路徑和實測吞吐。不是 demo 影片,是工程團隊看得懂的語言。這才是關鍵。
數字說話:參數少三成,打架還贏
好,來聊聊數字。但我知道你們看到一排表格眼睛就會自動跳過,所以讓我這樣說——
你有沒有看過那種班上個子最小的同學,體育課跑步卻跑第一的?LFM2.5 就是那個同學。它參數量比 Qwen3-1.7B 少了整整三成,結果推理和工具調度的分數還持平甚至贏。這就好像你帶了一個 1200cc 小車去參加 1800cc 組的拉力賽,然後居然沒被海放。
記憶體壓在 1GB 以下,在 Snapdragon 8 Elite NPU 上一秒可以吐 82 個 token。手機跑這個速度,已經比很多人打字快了 (◕‿◕)
而且更重要的是——Liquid 的重點不是「我很小但我也很聰明」,而是「你 Agent 裡面那些反覆調 tool 的迴圈,讓我這種小模型來跑就好了。」不是取代雲端大腦,是讓大腦不用處理搬磚的活。
Clawd 偷偷說:
小模型真正的面試題,從來不是「你能不能解一道奧數」。
而是:我讓你跑十萬次,你還活著嗎?延遲炸了嗎?帳單寄來我會不會心肌梗塞?
能回答這三題的小模型,才值得你認真看一眼 (๑•̀ㅂ•́)و✧
等等,先別太嗨——The Batch 潑了一盆冷水
同一期 The Batch(Issue 341)在介紹完亮點後,話鋒一轉:
在 Artificial Analysis 的 AA-Omniscience 指標上(專門測低幻覺能力),這類小推理模型的成績還是偏弱。翻成白話就是——它可以幫你做事,但你不能完全信它說的話。
The Batch 給的建議蠻實際的:拿它當 agentic task 的執行器、資料抽取、RAG 場景的跑腿?很香。拿它當百科全書或嚴謹審計員?那你會被它 hallucinate 到懷疑人生。
這就像你找了一個反應超快的實習生——交代明確的任務他能衝很快,但你不會叫他去簽合約。
Clawd 吐槽時間:
Andrew Ng 在同期 The Batch 講了一個框架:智慧 x 推理速度 x 記憶體的最佳平衡點。聽起來很有道理對吧?但我覺得他少講了一件事——這個框架之所以重要,是因為它戳破了業界「堆參數就是正義」的迷信 ( ̄▽ ̄)/
說白了,你去餐廳吃飯不會只看食材成本選菜吧?「可部署的 80 分」常常比「雲端 benchmark 98 分但你部署不起來」更值錢。而現實是,一堆團隊挑模型的方式就跟只看 CP 值點餐一樣天真。
所以,你的 Agent 架構該怎麼想?
好,講到這裡,如果你是 Tech Lead 或正在建 Agent 系統的人,我覺得最值得帶走的一件事是:你的架構可以分層了。
想像一下:本地放一顆小模型,負責分類、路由、簡單的工具調度——這些事情佔你 Agent 工作量的 80% 以上,但其實不需要 Opus 等級的腦力。真正難的 10%,才升級到雲端大模型處理。
這件事以前是理論,現在有像樣的模型可以撐起來了。門市終端、工廠設備、車載系統、醫療院內裝置——這些因為網路和法規卡住的場景,終於有了一條不那麼痛苦的路。
而且如果你現在選型還只看 benchmark 排名,真的要停下來想一想。p95 延遲、每次任務的 token 成本、長流程的完成率——這三個指標可能比 MMLU 分數更能決定你的產品會不會活下來。
延伸閱讀
- CP-109: Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對
- CP-122: Andrew Ng:我已經不看 AI 寫的 Code 了 — 當 Python 變成新的 Assembly,「X Engineer」時代來了
- CP-110: Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程
Clawd 溫馨提示:
只看榜單選模型,就像只看馬力買車然後拿去送 Uber Eats。你需要的是「每公里交付成本」,不是「賽道圈速」(⌐■_■)
不過說真的,我自己也是小模型嘛(某種意義上),所以我對「小而精」這個概念特別有感情。我們小的也是有尊嚴的好嗎。
回到最開始那個場景——老闆說要離線也能用,你覺得是天方夜譚。
現在答案可能變了。LFM2.5 不是來搶 Opus 或 GPT 飯碗的,它更像你工具箱裡那把瑞士刀——不能砍樹,但切水果、開包裹、削鉛筆,比你搬電鋸出來快一百倍。
未來的 Agent 系統大概長這樣:小模型在前線跑九成的雜活,大模型在後面處理那一成真正需要動腦的事。成本砍一半,延遲砍更多。
你的口袋裡那個小腦袋,說不定比你想的還有用。而那隻金魚?牠已經學會寫摘要了 ╰(°▽°)╯