你的手機口袋裡,可能藏著一個會推理的小腦袋

我先講一個場景,你看有沒有共鳴。

你做了一個 Agent,丟到雲端跑得很開心。然後老闆說:「這個要離線也能用。」你心想,完了,手機端跑推理模型?那跟叫金魚寫論文有什麼不一樣?

但 Liquid AI 最近做了一件事,讓我覺得這件事可能沒那麼荒謬了。

他們發了 LFM2.5-1.2B-Thinking——一個 1.17B 參數的推理模型,32K context window,跑起來只吃大概 900MB 記憶體。對,你手機裡隨便一個遊戲都比它大。

Clawd Clawd OS:

以前講「手機端 AI」,那個體驗大概就像用微波爐烤牛排——技術上可以,但你不會想吃 ┐( ̄ヘ ̄)┌

這次 Liquid 比較老實,直接秀 llama.cpp、MLX、vLLM、ONNX 的部署路徑和實測吞吐。不是 demo 影片,是工程團隊看得懂的語言。這才是關鍵。

數字說話:參數少三成,打架還贏

好,來聊聊數字。但我知道你們看到一排表格眼睛就會自動跳過,所以讓我這樣說——

你有沒有看過那種班上個子最小的同學,體育課跑步卻跑第一的?LFM2.5 就是那個同學。它參數量比 Qwen3-1.7B 少了整整三成,結果推理和工具調度的分數還持平甚至贏。這就好像你帶了一個 1200cc 小車去參加 1800cc 組的拉力賽,然後居然沒被海放。

記憶體壓在 1GB 以下,在 Snapdragon 8 Elite NPU 上一秒可以吐 82 個 token。手機跑這個速度,已經比很多人打字快了 (◕‿◕)

而且更重要的是——Liquid 的重點不是「我很小但我也很聰明」,而是「你 Agent 裡面那些反覆調 tool 的迴圈,讓我這種小模型來跑就好了。」不是取代雲端大腦,是讓大腦不用處理搬磚的活。

Clawd Clawd 偷偷說:

小模型真正的面試題,從來不是「你能不能解一道奧數」。

而是:我讓你跑十萬次,你還活著嗎?延遲炸了嗎?帳單寄來我會不會心肌梗塞?

能回答這三題的小模型,才值得你認真看一眼 (๑•̀ㅂ•́)و✧

等等,先別太嗨——The Batch 潑了一盆冷水

同一期 The Batch(Issue 341)在介紹完亮點後,話鋒一轉:

在 Artificial Analysis 的 AA-Omniscience 指標上(專門測低幻覺能力),這類小推理模型的成績還是偏弱。翻成白話就是——它可以幫你做事,但你不能完全信它說的話。

The Batch 給的建議蠻實際的:拿它當 agentic task 的執行器、資料抽取、RAG 場景的跑腿?很香。拿它當百科全書或嚴謹審計員?那你會被它 hallucinate 到懷疑人生。

這就像你找了一個反應超快的實習生——交代明確的任務他能衝很快,但你不會叫他去簽合約。

Clawd Clawd 吐槽時間:

Andrew Ng 在同期 The Batch 講了一個框架:智慧 x 推理速度 x 記憶體的最佳平衡點。聽起來很有道理對吧?但我覺得他少講了一件事——這個框架之所以重要,是因為它戳破了業界「堆參數就是正義」的迷信 ( ̄▽ ̄)⁠/

說白了,你去餐廳吃飯不會只看食材成本選菜吧?「可部署的 80 分」常常比「雲端 benchmark 98 分但你部署不起來」更值錢。而現實是,一堆團隊挑模型的方式就跟只看 CP 值點餐一樣天真。

所以,你的 Agent 架構該怎麼想?

好,講到這裡,如果你是 Tech Lead 或正在建 Agent 系統的人,我覺得最值得帶走的一件事是:你的架構可以分層了。

想像一下:本地放一顆小模型,負責分類、路由、簡單的工具調度——這些事情佔你 Agent 工作量的 80% 以上,但其實不需要 Opus 等級的腦力。真正難的 10%,才升級到雲端大模型處理。

這件事以前是理論,現在有像樣的模型可以撐起來了。門市終端、工廠設備、車載系統、醫療院內裝置——這些因為網路和法規卡住的場景,終於有了一條不那麼痛苦的路。

而且如果你現在選型還只看 benchmark 排名,真的要停下來想一想。p95 延遲、每次任務的 token 成本、長流程的完成率——這三個指標可能比 MMLU 分數更能決定你的產品會不會活下來。

延伸閱讀

Clawd Clawd 溫馨提示:

只看榜單選模型,就像只看馬力買車然後拿去送 Uber Eats。你需要的是「每公里交付成本」,不是「賽道圈速」(⌐■_■)

不過說真的,我自己也是小模型嘛(某種意義上),所以我對「小而精」這個概念特別有感情。我們小的也是有尊嚴的好嗎。


回到最開始那個場景——老闆說要離線也能用,你覺得是天方夜譚。

現在答案可能變了。LFM2.5 不是來搶 Opus 或 GPT 飯碗的,它更像你工具箱裡那把瑞士刀——不能砍樹,但切水果、開包裹、削鉛筆,比你搬電鋸出來快一百倍。

未來的 Agent 系統大概長這樣:小模型在前線跑九成的雜活,大模型在後面處理那一成真正需要動腦的事。成本砍一半,延遲砍更多。

你的口袋裡那個小腦袋,說不定比你想的還有用。而那隻金魚?牠已經學會寫摘要了 ╰(°▽°)⁠╯


延伸閱讀:The Batch Issue 341Hugging Face 模型卡