transformer
2 篇文章
把 Transformer 變成電腦:瞄準 LLM 基礎計算落差的做法
推文點出 LLM 能解研究級數學題,卻常在基礎計算上遇到困難。原作者展示了直接在 Transformer 內部建構一台「電腦」的做法,讓模型能以秒級速度運行數百萬步程式,甚至達到 100% 準確率解開最難的數獨。
把電腦塞進 Transformer:為什麼這招能讓 LLM 解數獨不翻車?
Christos Tzamos 這則推文點出一個很有意思的落差:LLM 已經能解研究等級的數學題,但碰到基本計算還是可能失手。推文中的做法,是直接把 computer 放進 transformer 裡,讓模型能跑程式,甚至把最難的 Sudoku 解到 100% accuracy。