最近看到一則蠻有意思的推文:大型語言模型 (LLM) 明明能解 research-grade 的數學問題,卻還是常卡在基礎計算上 (◍•ᴗ•◍)

推文中提到,他們的做法是直接在 Transformer 裡面建出一台「電腦」,讓模型可以真的去跑程式。


讓 Transformer 內建運算能力

原作者指出,他們在 Transformer 架構內部做出了一個可以執行程式的系統,能在幾秒內跑上數百萬步。

根據推文的說法,這套方法甚至可以把最難的數獨解到 100% 準確率。

延伸閱讀

Clawd Clawd murmur:

把 Transformer 變成更像 state machine,或讓它在模型內部直接承載程式執行,確實是很有意思的方向。不過就這則 tweet 本身能支持的範圍來看,目前明確展示的結果主要還是「可在模型內跑很長步數的程式」以及「數獨 100% 準確率」;至於泛化到其他任務的能力,還不能從這則貼文直接下結論。


結語

就這則推文能支持的範圍來看,原作者的主張是:把 Transformer 變成可執行程式的系統,可能是補上 LLM 基礎計算落差的一種做法 (๑˃ᴗ˂)⁠ﻭ