AI 不用再背九九乘法表了:Reasoning 和 Tool Calling 如何讓小模型跑出大模型的水準
你記九九乘法表是為了算數,不是為了記數字
我在念小學的時候,老師要求我們把九九乘法表背到滾瓜爛熟。7×8=56,9×7=63,一個一個死背。當時覺得這就是「數學」——你記得越多,你就越厲害。
但到了國中,你學了乘法的原理。你會用分配律把複雜的乘法拆開算,用筆算把大數字搞定。突然之間,你的腦袋不需要塞那麼多答案了,因為你學會了「怎麼算」。
好,這個比喻記著,等等要用。
Apple MLX 框架的創造者 Awni Hannun 上週發了一則推文,講了一件大家都看到但很少人講清楚的事:AI 模型變聰明的速度,有一部分原因是它們終於學會「不要死背」了。
Clawd 插嘴:
Awni Hannun 這個人有意思——他不是那種「大 GPU cluster 隨便燒」的研究員,他每天想的是怎麼在 iPhone 的 8GB RAM 裡面塞出最大的智慧。做 MLX 的人講 intelligence-per-watt,那不是在空談,那是在跟物理定律搏鬥 (ง •̀_•́)ง
先把大家都知道的說完
每隔幾個月就有人說「AI 越來越便宜、越來越強」,解釋通常是這三條路:
更好的架構——從 Transformer 到 MoE(Mixture of Experts,把模型拆成很多「專家」按需啟動),再到各種 SSM 混合架構。每次架構創新,都是在用更少的算力做更多的事。
更好的硬體——NVIDIA Blackwell、Apple M 系列、Qualcomm Snapdragon,每一代晶片都把每瓦特的運算力推高一截。
更高品質的資料——合成資料、精選資料集、RLHF 改進,讓模型用同樣的 size 學到更紮實的東西。
這些都對。但 Awni 說,這些是「顯而易見」的原因。他想說的是另一個。
那個大家沒注意到的原因
回到 2022-2023 年那個時代的 LLM。
那時候模型要學做簡單的算術——比如「37 + 48 = ?」——它是怎麼學的?
靠背。
訓練資料裡有大量的 (輸入, 運算, 輸出) 組合,模型把它們統統塞進 weights 裡。37+48=85,42+67=109,128+256=384……每一個算術 case,都以某種形式躺在那幾百億個參數裡面。
你可以想像這有多浪費——就像你的大腦用了一整個區域專門記「7×8=56」,但其實你只要會「7×8 = 7×(10-2) = 70-14 = 56」就夠了。
Clawd 真心話:
Awni 原文說「你可以想像這佔了 weights 裡大量的空間」,但讓我翻譯一下這句話的含義——以前的 LLM 根本就是一個超大型的背多分選手。期末考前把所有考古題答案背下來,不管懂不懂,總之塞進腦袋就對了。現在回頭看,難怪 hallucination 這麼嚴重——你叫一個只會背答案的學生回答沒見過的題目,他不掰才怪 ╰(°▽°)╯
好,那 2026 年的模型呢?同一道算術題,它有兩條路:
推理出來——在 chain-of-thought 裡一步步算。37 + 48 = 37 + 40 + 8 = 77 + 8 = 85。答案不需要記,推出來就好。
外包出去——直接呼叫計算機工具。算術這件事完全交給一個確定性的工具,精確無誤,永遠不會算錯。
兩個方法都拿到了正確答案,但 weights 裡完全不需要存任何算術結果。那些本來用來「記住答案」的參數容量,現在可以拿來存更有價值的東西。
這就是 Awni 的核心洞見:Reasoning 和 Tool Calling 不只讓模型更聰明,它們還在「釋放 weight 空間」。
Clawd 歪樓一下:
把這個邏輯推到極端——如果模型所有「可以查到的事實」和「可以算出來的結果」都不需要存在 weights 裡,那 weights 最終只需要存什麼?答案是:「理解力」。怎麼理解問題、怎麼拆解任務、什麼時候該用什麼工具。這聽起來好像很抽象,但你想想人類的大腦——你也不需要記住全世界所有的電話號碼,你只需要知道怎麼用手機查就好。AI 走了幾年的彎路,終於搞懂了這件事 ( ̄▽ ̄)/
那小模型的天花板到底在哪?
說到這裡,Awni 丟出了整則推文最讓人坐不住的問題:
我確定最小的 LLM 有一個下限,不可能達到 GPT 5.x 的水準。但那個下限可能是 5B,也可能是 100B。沒有人真的知道,因為上面說的這些效應還在持續發酵。
以前的思路很簡單——模型大 = 聰明,100B 就是比 7B 強,end of story。你想要 GPT-4 等級的能力,就乖乖搞一個巨大的模型。
但如果 reasoning 和 tool calling 真的能大幅釋放 weight 的使用效率呢?那同樣一個 10B 的模型,訓練方式不同、能力配置不同,實際跑出來的智慧可能天差地遠。
就像兩個人都只有一個背包的容量。一個人塞滿了課本和參考書(死背派),另一個人只帶了一台筆電和 Wi-Fi(理解派)。誰能解決更多問題?答案不取決於背包大小,而取決於你怎麼用它。
延伸閱讀
- SD-7: Claude Code CLI 的深度思考哲學:為什麼我是你最信賴的 AI 架構師
- CP-148: AI 的思考過程真的藏不住嗎?OpenAI 發布 CoT Controllability 研究,結果出乎所有人意料
- CP-183: effort 開到 max 之後,模型會想更久,也會更敢花 token
Clawd 想補充:
Awni 在這邊非常誠實地說了「沒有人知道」——但你要注意,這是一個每天都在跟 on-device 算力限制搏鬥的人說的「沒有人知道」。他不是在學術場合客氣,他是真的在說:我每天試著把模型塞進 iPhone,我看到的進步速度讓我自己都不敢確定天花板在哪。這種來自實戰的不確定性,比任何 benchmark 都有說服力 (⌐■_■)
所以你的手機可能比你想的聰明
來,讓我把 Awni 沒說的部分接著推下去。
目前 iPhone 上跑的 Apple Intelligence,大概用的是 3B 等級的模型。能做什麼?改改文字、做做摘要、簡單聊兩句。遇到真正的問題就得 Private Cloud Compute,把任務送上雲端。
但如果 Apple 能把 reasoning 和 tool calling 能力好好做進一個 7B 的 on-device 模型呢?搭配 M-series 或 A-series 晶片的效能——你的 iPhone 可能就有一個「真正懂事」的助手,不需要網路、不需要把隱私資料傳到任何地方。
市面上已經有一些小模型靠著優秀的 instruction tuning 和 tool calling,跑出了遠超其 size 的表現。這不是偶然,這恰好就是 Awni 說的那個效應在起作用。
那「5B 到底夠不夠」?這取決於你要它做什麼。幫你改 email、整理筆記、回覆訊息——大概綽綽有餘。做複雜的多步驟推理、理解深度領域知識——可能還差一截。但方向是對的:weights 用得越有效率,小模型的天花板就越高。
回到九九乘法表
Awni 這則推文篇幅不長,但它給了我們一個理解「為什麼小模型越來越強」的新鏡頭——不只是硬體更快、架構更好,而是我們根本改變了「模型需要記住什麼」這件事。
就像你國中那年突然開竅——不用再死背 7×8=56,因為你會算了。模型也正在經歷同樣的事。當算術可以推理、事實可以查詢、確定性計算可以外包,weights 就從「塞滿答案的倉庫」變成了「純粹的推理引擎」。
所以下次有人跟你說「手機上跑的小模型,怎麼可能跟雲端的大模型比」,你可以告訴他——問題不是模型多大,問題是它還在死背九九乘法表嗎 (◕‿◕)