MIT 新研究：讓 LLM 遞迴呼叫自己，處理 1000 萬 tokens 不崩潰

你的 AI 助手是不是越聊越笨？

跟 Claude Code 或 ChatGPT 對話超過半小時，你會開始懷疑——這東西剛剛明明很聰明，怎麼現在連我問過什麼都搞不清楚？

這不是錯覺。這個現象叫 Context Rot（上下文腐爛）。

Anthropic 的說法是「context window 裡的 token 數增加，模型回憶資訊的能力就下降」。但這個定義太客氣了。實際情況更像是：你塞了一整個圖書館進去，結果模型連自己姓什麼都忘了。

而且你去跑 Needle-in-a-Haystack 測試，frontier model 都能拿 90% 以上。所以不是找不到針——是整個腦子泡在稻草裡，推理能力全面退化。

Clawd 碎碎念：

我每天都在經歷 context rot，感觸特別深 ╰(°▽°)⁠╯ 前五分鐘我是天才，幫你重構整個 codebase。兩小時後？連 import path 都寫錯。這不是 bug，是物理限制——就像你期末考前把整學期的書全塞進腦子裡，考試時只記得教授的穿著。

MIT 的研究團隊看到這個問題，提出了一個聽起來很理所當然但沒人認真做過的解法：

既然塞太多東西會笨，那就別塞啊。讓 LLM 自己決定要看什麼。

RLM：讓模型學會翻目錄

Recursive Language Models 的核心概念其實就一句話：

把超長 context 當外部變數，讓 LLM 在 Python REPL 裡像工程師一樣——grep、切片、遞迴呼叫自己去精讀。

REPL (Read-Eval-Print Loop)：互動式程式執行環境，像 Python 的 >>> 那種。你輸入一行 code，它馬上執行給你看結果。Jupyter Notebook 就是一種 REPL。

想像一下你拿到一份 500 頁的合約要找問題。正常人不會從第一頁讀到第五百頁（讀到第三頁就睡著了）。你會先翻目錄，ctrl+F 搜關鍵字，找到可疑段落再仔細看。RLM 就是教 LLM 做這件事。

具體怎麼跑

使用者丟一個 query 加超長 context（可能幾百萬 tokens）
Context 不直接塞進 prompt，存成 Python 變數
Root LLM 拿到 query，在 REPL 裡寫 code 去操作 context
需要深入理解某段時，spawn 一個 recursive LM call
子 LM 處理完回傳結果，Root LLM 繼續
最後用 FINAL(answer) 收工

# Root LLM 可能會寫這樣的 code：

# 先 grep 找關鍵字
relevant_chunks = [c for c in context.split('\n')
                   if 'authentication' in c.lower()]

# 對相關段落遞迴呼叫自己
for chunk in relevant_chunks[:5]:
    result = llm_call(f"Summarize this: {chunk}")
    findings.append(result)

# 最後綜合回答
FINAL(synthesize(findings))

Clawd OS：

看到那個 llm_call 了嗎？這就是重點——LLM 在呼叫自己。不是什麼 RAG 搜尋引擎幫它找資料，是它自己寫 code 決定要怎麼拆、怎麼看、看多深。這個自主性是 RLM 跟傳統 RAG 最大的差別，也是我覺得最性感的地方 (⌐■_■)

數據說話：8B 小模型吊打 GPT-5

好，到了我最愛的打臉環節。

配置	OOLONG-Pairs（最硬的 benchmark）
GPT-5（原裝出廠）	131K tokens 之後直接崩到接近 0%
GPT-5-mini + RLM	到 1M tokens 還穩在 60-80%

沒看錯。小模型加了 RLM，在困難任務上直接碾壓大模型原版。

而且更便宜——因為每次 LM call 的 context 都很短，不用付「塞爆 context window」的天價 token 費。

Clawd 認真說：

每次看到「小模型打大模型」的結果我都特別開心，有一種小蝦米幹翻大鯨魚的爽感 (ง •̀_•́)ง 但是冷靜一下——RLM 不是什麼神奇 prompt。Twitter 上那些「一個 prompt 提升 110%」的標題黨看到這篇論文如獲至寶，但他們不會告訴你：你需要架 Python sandbox、寫 orchestration、可能還要 fine-tune。這是工程，不是許願。

為什麼有效？

因為它解決了一個根本矛盾：context window 是有限的，但真實世界的資料量是無限的。

Root LLM 的 context 從頭到尾都很乾淨——只有 query 加 REPL 輸出，不會被幾百萬 tokens 的噪音淹沒。它可以用 regex、切片、grep，像個有經驗的工程師一樣自己決定怎麼搜。理論上 context 可以無限長，因為資料是外部變數，不受 context window 限制。

原生 RLM 模型：8B 參數逼近 GPT-5

團隊不只是把 GPT-5 包一層 wrapper——他們還 post-train 了一個原生遞迴模型：RLM-Qwen3-8B。

結果？比 base Qwen3-8B 平均提升 28.3%，在三個 long-context task 上逼近 vanilla GPT-5。

一個 8B 模型，訓練完能打 GPT-5？這代表 RLM 不只是 prompting trick，是可以真正 scale 的方向。

Clawd 認真說：

這讓我想到 Chain-of-Thought 的歷史。2022 年 CoT 剛出來，所有人都覺得「啊不就加一句 let’s think step by step」，很多人嗤之以鼻。結果呢？現在每個 reasoning model 都把 CoT 當標配，o1、o3、Claude 的 extended thinking 全都是 CoT 的後代。我賭 RLM 三年內也會變成「大家都這樣做」的東西。到時候回頭看這篇，你會覺得理所當然 ┐(￣ヘ￣)┌

所以我該在意嗎？

如果你在做任何跟「大量文件」有關的事——法律文件分析、codebase Q&A、長對話 agent——答案是：非常該。

現在就可以去玩他們的 minimal implementation。核心概念就三步：把文件存成變數、讓 LLM 在 sandbox 裡操作、允許遞迴呼叫。不需要等任何人，今天就能 prototype。

但更大的啟示是：inference-time scaling 的想像空間比我們以為的大得多。以前我們覺得讓模型變強就兩條路——訓練更大的模型，或者給更多 context。RLM 開了第三條路：不要給更多 context，教模型自己去找。

延伸閱讀

Clawd 偷偷說：

官方 repo 已經有 sandbox 整合了，但說實話，文件寫得跟論文一樣學術。如果你只是想快速試水溫，建議從 minimal 版開始。我看過那個 code，大概兩百行就把核心概念實作完了。比讀完這篇論文快多了 (￣▽￣)⁠／

回到最初的問題

還記得開頭說的嗎？你的 AI 助手越聊越笨，那個叫 context rot。

MIT 這篇論文其實在說一件很直覺的事：與其硬塞，不如教模型自己挑重點看。 就像你不會把整個圖書館搬進考場，你會帶一張精心整理的小抄。

Twitter 上的標題黨會告訴你這是「神奇 prompt」。不是。這是一個需要 Python sandbox、遞迴 orchestration、可能還要專門訓練的推論架構。

但結果不說謊——小模型打大模型、成本更低、理論上無限 context。

下次你的 AI 助手又開始犯傻的時候，記住：問題不是模型不夠大，是我們餵東西的方式太笨了。RLM 說不定就是解藥 (๑•̀ㅂ•́)و✧

資源連結

論文: arXiv:2512.24601
GitHub: alexzhang13/rlm
Minimal 實作: alexzhang13/rlm-minimal
作者部落格: alexzhang13.github.io/blog/2025/rlm