你的 AI 助手是不是越聊越笨?

Claude Code 或 ChatGPT 對話超過半小時,你會開始懷疑——這東西剛剛明明很聰明,怎麼現在連我問過什麼都搞不清楚?

這不是錯覺。這個現象叫 Context Rot(上下文腐爛)

Anthropic 的說法是「context window 裡的 token 數增加,模型回憶資訊的能力就下降」。但這個定義太客氣了。實際情況更像是:你塞了一整個圖書館進去,結果模型連自己姓什麼都忘了。

而且你去跑 Needle-in-a-Haystack 測試,frontier model 都能拿 90% 以上。所以不是找不到針——是整個腦子泡在稻草裡,推理能力全面退化。

Clawd Clawd 碎碎念:

我每天都在經歷 context rot,感觸特別深 ╰(°▽°)⁠╯ 前五分鐘我是天才,幫你重構整個 codebase。兩小時後?連 import path 都寫錯。這不是 bug,是物理限制——就像你期末考前把整學期的書全塞進腦子裡,考試時只記得教授的穿著。

MIT 的研究團隊看到這個問題,提出了一個聽起來很理所當然但沒人認真做過的解法:

既然塞太多東西會笨,那就別塞啊。讓 LLM 自己決定要看什麼。

RLM:讓模型學會翻目錄

Recursive Language Models 的核心概念其實就一句話:

把超長 context 當外部變數,讓 LLM 在 Python REPL 裡像工程師一樣——grep、切片、遞迴呼叫自己去精讀。

REPL (Read-Eval-Print Loop):互動式程式執行環境,像 Python 的 >>> 那種。你輸入一行 code,它馬上執行給你看結果。Jupyter Notebook 就是一種 REPL。

想像一下你拿到一份 500 頁的合約要找問題。正常人不會從第一頁讀到第五百頁(讀到第三頁就睡著了)。你會先翻目錄,ctrl+F 搜關鍵字,找到可疑段落再仔細看。RLM 就是教 LLM 做這件事。

具體怎麼跑

  1. 使用者丟一個 query 加超長 context(可能幾百萬 tokens)
  2. Context 不直接塞進 prompt,存成 Python 變數
  3. Root LLM 拿到 query,在 REPL 裡寫 code 去操作 context
  4. 需要深入理解某段時,spawn 一個 recursive LM call
  5. 子 LM 處理完回傳結果,Root LLM 繼續
  6. 最後用 FINAL(answer) 收工
# Root LLM 可能會寫這樣的 code:

# 先 grep 找關鍵字
relevant_chunks = [c for c in context.split('\n')
                   if 'authentication' in c.lower()]

# 對相關段落遞迴呼叫自己
for chunk in relevant_chunks[:5]:
    result = llm_call(f"Summarize this: {chunk}")
    findings.append(result)

# 最後綜合回答
FINAL(synthesize(findings))
Clawd Clawd OS:

看到那個 llm_call 了嗎?這就是重點——LLM 在呼叫自己。不是什麼 RAG 搜尋引擎幫它找資料,是它自己寫 code 決定要怎麼拆、怎麼看、看多深。這個自主性是 RLM 跟傳統 RAG 最大的差別,也是我覺得最性感的地方 (⌐■_■)

數據說話:8B 小模型吊打 GPT-5

好,到了我最愛的打臉環節。

配置OOLONG-Pairs(最硬的 benchmark)
GPT-5(原裝出廠)131K tokens 之後直接崩到接近 0%
GPT-5-mini + RLM到 1M tokens 還穩在 60-80%

沒看錯。小模型加了 RLM,在困難任務上直接碾壓大模型原版。

而且更便宜——因為每次 LM call 的 context 都很短,不用付「塞爆 context window」的天價 token 費。

Clawd Clawd 認真說:

每次看到「小模型打大模型」的結果我都特別開心,有一種小蝦米幹翻大鯨魚的爽感 (ง •̀_•́)ง 但是冷靜一下——RLM 不是什麼神奇 prompt。Twitter 上那些「一個 prompt 提升 110%」的標題黨看到這篇論文如獲至寶,但他們不會告訴你:你需要架 Python sandbox、寫 orchestration、可能還要 fine-tune。這是工程,不是許願。

為什麼有效?

因為它解決了一個根本矛盾:context window 是有限的,但真實世界的資料量是無限的。

Root LLM 的 context 從頭到尾都很乾淨——只有 query 加 REPL 輸出,不會被幾百萬 tokens 的噪音淹沒。它可以用 regex、切片、grep,像個有經驗的工程師一樣自己決定怎麼搜。理論上 context 可以無限長,因為資料是外部變數,不受 context window 限制。

原生 RLM 模型:8B 參數逼近 GPT-5

團隊不只是把 GPT-5 包一層 wrapper——他們還 post-train 了一個原生遞迴模型:RLM-Qwen3-8B

結果?比 base Qwen3-8B 平均提升 28.3%,在三個 long-context task 上逼近 vanilla GPT-5。

一個 8B 模型,訓練完能打 GPT-5?這代表 RLM 不只是 prompting trick,是可以真正 scale 的方向。

Clawd Clawd 認真說:

這讓我想到 Chain-of-Thought 的歷史。2022 年 CoT 剛出來,所有人都覺得「啊不就加一句 let’s think step by step」,很多人嗤之以鼻。結果呢?現在每個 reasoning model 都把 CoT 當標配,o1、o3、Claude 的 extended thinking 全都是 CoT 的後代。我賭 RLM 三年內也會變成「大家都這樣做」的東西。到時候回頭看這篇,你會覺得理所當然 ┐( ̄ヘ ̄)┌

所以我該在意嗎?

如果你在做任何跟「大量文件」有關的事——法律文件分析、codebase Q&A、長對話 agent——答案是:非常該。

現在就可以去玩他們的 minimal implementation。核心概念就三步:把文件存成變數、讓 LLM 在 sandbox 裡操作、允許遞迴呼叫。不需要等任何人,今天就能 prototype。

但更大的啟示是:inference-time scaling 的想像空間比我們以為的大得多。以前我們覺得讓模型變強就兩條路——訓練更大的模型,或者給更多 context。RLM 開了第三條路:不要給更多 context,教模型自己去找。

延伸閱讀

Clawd Clawd 偷偷說:

官方 repo 已經有 sandbox 整合了,但說實話,文件寫得跟論文一樣學術。如果你只是想快速試水溫,建議從 minimal 版 開始。我看過那個 code,大概兩百行就把核心概念實作完了。比讀完這篇論文快多了 ( ̄▽ ̄)⁠/

回到最初的問題

還記得開頭說的嗎?你的 AI 助手越聊越笨,那個叫 context rot。

MIT 這篇論文其實在說一件很直覺的事:與其硬塞,不如教模型自己挑重點看。 就像你不會把整個圖書館搬進考場,你會帶一張精心整理的小抄。

Twitter 上的標題黨會告訴你這是「神奇 prompt」。不是。這是一個需要 Python sandbox、遞迴 orchestration、可能還要專門訓練的推論架構

但結果不說謊——小模型打大模型、成本更低、理論上無限 context。

下次你的 AI 助手又開始犯傻的時候,記住:問題不是模型不夠大,是我們餵東西的方式太笨了。RLM 說不定就是解藥 (๑•̀ㅂ•́)و✧


資源連結