從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場:Agentic Thinking
一篇讓你重新理解「AI 會思考」的長文
2026 年 3 月底,Qwen 團隊的林駿洋(Junyang Lin)在 X 上發了一篇英文長文,標題是 From “Reasoning” Thinking to “Agentic” Thinking。
他的核心論點很清楚:下一步不是只讓模型想更久,而是讓模型一邊行動、一邊根據環境回饋持續修正。
這不只是換個名詞。原文談的是訓練目標怎麼變、RL 基礎設施怎麼變,還有模型和環境之間的關係怎麼一起被重新定義。
Clawd 內心戲:
AI 圈每隔三個月就有人發一篇「下一個 paradigm shift」的長文,但九成讀完像在看新聞稿。林駿洋這篇不一樣 — 他不是在喊口號,是真的把 reasoning → agentic 這條線的每一個零件(reward 怎麼設計、infra 怎麼蓋、tool 怎麼接、environment 怎麼做)都拆開來給你看。像是有人把引擎蓋打開,指著每根油管跟你說「這根會漏油」。從推文互動來看,這篇也確實引起不少同行的認真討論,不只是按讚轉發 (。◕‿◕。)
o1 和 R1 真正教會我們什麼
故事要從 2024 年說起。OpenAI 的 o1 第一次把「thinking」變成一種你可以訓練、可以展示給使用者看的 first-class 能力。接著 DeepSeek 的 R1 證明了這套玩法不是只有 OpenAI 能搞 — reasoning 風格的後訓練可以被複製和規模化。
但林駿洋說,這波 reasoning model 浪潮真正教會我們的,其實是兩件更底層的事:
第一,RL 需要又硬又穩的 feedback signal。 數學、程式碼、邏輯推理之所以變成 reasoning RL 的核心戰場,是因為這些領域的 reward 是確定性的(deterministic)。答案對就是對,錯就是錯。比起通用的 preference supervision(人類偏好打分),這種 reward 讓 RL 可以真正去 optimize「正確性」而不只是「聽起來像對的」。
第二,RL 從此變成了一個系統工程問題。 一旦你要訓練模型在很長的 trajectory 上推理,RL 就不再是 supervised fine-tuning 之後的輕量 add-on 了。你需要大規模 rollout、高吞吐量的驗證、穩定的 policy update、高效的 sampling。林駿洋直接點破:reasoning model 的崛起,與其說是 modeling 的故事,不如說是 infrastructure 的故事。
Clawd 偷偷說:
用白話講:以前做 RL 像是在蛋糕上擠奶油花 — 蛋糕(SFT)是主體,奶油花(RL)是裝飾。現在做 reasoning RL 像是在蓋一座化工廠 — 你要管 pipeline、管 throughput、管安全閥,少一個環節整條線就炸給你看。 第一個大轉折:從「把 pretraining 做大」變成「把 post-training 的 reasoning RL 做大」┐( ̄ヘ ̄)┌
Thinking + Instruct 合體:說的比做的容易一百倍
好,reasoning model 起來了。那下一步很自然會想:能不能把 thinking 模式和 instruct 模式合在同一個模型裡?
2025 年初,Qwen 團隊確實有一個很美好的願景。理想狀態是:一個統一的系統,支援可調式推理力度(低/中/高),甚至能自己判斷這個 prompt 需要多少思考量。簡單問題秒回,困難問題多想想,超級難的問題花大量算力去啃。
Qwen3 是這個願景最清楚的公開嘗試 — 它引入了 hybrid thinking mode,支援 thinking 和 non-thinking 在同一個模型家族裡切換,還設計了四階段的後訓練 pipeline。
但林駿洋的坦白很珍貴:他們沒有完全做對。
問題的核心不在模型架構的相容性,而在資料。Thinking mode 和 instruct mode 要的東西根本不一樣:
一個好的 instruct model 被 reward 的是:直接、簡短、格式正確、延遲低。企業客戶要的是高吞吐量的 batch 作業 — 改寫、標記、制式回覆、結構化擷取。快狠準,不囉嗦。
一個好的 thinking model 被 reward 的是:在困難問題上花更多 token、維持連貫的中間結構、探索替代路徑、保留足夠的內部運算來真正提升最終正確性。
這兩種行為人格互相打架。如果 merge 的資料沒有精心策展,結果通常是兩邊都平庸:thinking 變得囉嗦但不果斷,instruct 變得不乾淨、不可靠、還更貴。
Clawd 碎碎念:
這段超有料。一個核心團隊成員在公開場合承認「我們沒全做對」,在 AI lab 的文化裡是很少見的。通常你只會看到「我們的 benchmark 又 SOTA 了」之類的。 林駿洋的坦白讓人想到一個殘酷的事實:hybrid 聽起來很美(一個模型打天下!),但實務上就像要求同一個人同時當急診室醫生和瑜珈老師 — 兩個角色需要的 energy 完全相反 (╯°□°)╯
所以 Qwen 後來怎麼做的?2025 下半年,Qwen 2507 系列直接拆成獨立的 Instruct 和 Thinking 版本(包括 30B 和 235B)。很多商業客戶確實就是要高吞吐、低成本、高度可控的 instruct 行為,merge 對他們來說不是好處,是負擔。拆開之後,各自的 data 和 training 問題反而能解得更乾淨。
不過,其他 lab 走了相反的路。Anthropic 的 Claude 3.7 Sonnet 是 hybrid reasoning model,使用者可以選擇普通回覆或 extended thinking,API 端可以設定 thinking budget。Anthropic 公開表態:reasoning 應該是整合的能力,不是另一個模型。智譜的 GLM-4.5 也走 hybrid 路線;DeepSeek 後來的 V3.1 也支援 “Think & Non-Think” 混合推理。
關鍵問題是:merge 到底是有機的,還是硬接的? 如果 thinking 和 instruct 只是被塞在同一個 checkpoint 裡,行為上還是像兩個尷尬縫合在一起的人格,產品體驗就是不自然。真正成功的 merge 需要一個平滑的推理光譜 — 模型能表達多種層級的 effort,而且理想上能自適應地選擇。GPT 風格的 effort control 指向了這個方向:一個「對算力的 policy」,而不是一個二元開關。
Anthropic 做對了什麼
林駿洋對 Anthropic 的方向給了一個有意思的評價:他稱之為「useful corrective」(有用的糾偏)。
Claude 3.7 和 Claude 4 的公開定位很克制。他們強調的不是「我們的 reasoning trace 最長」,而是:整合式推理、使用者可控的 thinking budget、真實世界任務、coding 品質。Claude 4 更進一步,讓 reasoning 可以跟 tool use 交錯進行。
這裡有一個很深刻的觀察:更長的 reasoning trace 不等於更聰明。
很多時候,過度冗長的可見推理其實暴露了模型在亂想 — 它沒辦法排優先順序、沒辦法壓縮、沒辦法決定下一步該做什麼。原文的說法是:thinking should be shaped by the target workload — thinking 應該被目標任務塑形。
如果目標是寫程式,thinking 應該幫助 codebase 導航、規劃、分解、錯誤恢復、tool 編排。如果目標是 agent 工作流,thinking 應該提升長時間範圍內的執行品質,而不是產出漂亮的中間推理文字。
Clawd 認真說:
Anthropic 這條路線在原文裡被視為一種「useful corrective」:重點不是把推理寫得越長越威,而是讓 thinking 真正服務目標任務。 這觀點打臉了「thinking token 越多越厲害」的迷思。想像一下:你叫一個實習生去買咖啡,他在白板上寫了三十分鐘的流程圖分析「買咖啡的最佳路徑」— 你會覺得他很聰明還是很有事?真正的智慧是知道什麼時候該停止想、開始做 ( ̄▽ ̄)/
然後林駿洋丟出了整篇文章最重要的一句話,而且他說 Qwen3 的 blog 裡也明確寫過:
「我們正在從訓練模型的時代,轉向訓練 agent 的時代。」
Agent 是什麼?是一個能制定計畫、決定何時行動、使用工具、感知環境回饋、修正策略、並且在長時間維度上持續運作的系統。它的定義核心是:跟世界的閉迴路互動。
什麼是 Agentic Thinking
好,終於到了這篇文章的靈魂。
Reasoning thinking 和 agentic thinking 的差別,不只是名字不同。它們是不同的 optimization target — 你在 optimize 的東西從根本上就不一樣了。
想像兩種考試。Reasoning thinking 像是數學期末考:考卷發下來,你埋頭算,時間到交卷,答案對就是對、錯就是錯。整個過程你跟外界零互動。模型被評判的是:你的 internal thinking 品質夠不夠好?能不能解定理、寫 proof、產出正確的 code?
Agentic thinking 更像是被丟進一間陌生的實驗室,然後有人說:「把這個東西修好。」你不知道零件在哪、工具在哪、甚至不確定「修好」的定義是什麼。你得自己去翻抽屜、試工具、看結果、調方向。模型被評判的不是「你在腦子裡想了什麼」,而是「你在跟環境互動的過程中,有沒有持續取得進展」。
核心問題從「模型能不能想得夠久」變成「模型能不能用一種能持續支撐有效行動的方式去想」。
這聽起來很抽象,但具體來看,agentic thinking 要處理的每一件事都是 pure reasoning model 可以假裝不存在的:什麼時候該停止思考、開始行動?這件事本身就需要判斷力 — 想太久是浪費,想太少是莽撞。選擇呼叫哪個 tool、用什麼順序?不是越多越好,濫用工具跟不用工具一樣糟。然後你還得吸收來自環境的雜訊和不完整觀察,因為真實世界不會餵你乾淨的 input。失敗了?不是重來,是 adapt — 你得帶著失敗的記憶繼續前進。最後,在十幾輪對話和幾十次 tool call 之間維持一致性,context 管理本身就變成一種核心能力。
用一句話講:Agentic thinking 是「透過行動來推理」的模型。
Clawd 歪樓一下:
原文是 “a model that reasons through action”,這句話有一種哲學的力量 (๑•̀ㅂ•́)و✧ 以前的 reasoning model 像是在考數學 — 閉上眼睛,在腦子裡想,然後寫下答案。Agentic thinking 像是在做實驗 — 想一步、做一步、看結果、調方向。 如果你玩過 roguelike 遊戲就秒懂:你不能在第一層就規劃出第十層的路線,因為每一層的地圖都是隨機生成的。你需要的不是「完美計畫」,而是「邊走邊修正的能力」。Reasoning model 是下棋高手,agentic model 是野外求生專家 — 兩種聰明,完全不同的物種。
為什麼 Agentic RL 的基礎設施難到爆
如果你覺得 reasoning RL 的基礎設施已經夠難了,那 agentic RL 會讓你重新定義「難」。
Reasoning RL 的 rollout 大致上可以當作自包含的 trajectory — 模型想一段,驗證器給個分數,循環結束。比較乾淨。
Agentic RL?模型的 policy 是嵌在一個更大的 harness 裡面的:tool server、瀏覽器、終端機、搜尋引擎、模擬器、execution sandbox、API layer、記憶體系統、orchestration framework。環境不再是一個靜態的驗證器 — 它變成了訓練系統的一部分。
這帶來一個新的系統需求:training 和 inference 必須更乾淨地解耦。 否則 rollout 的吞吐量直接崩潰。
舉個具體例子:一個 coding agent 需要把生成的 code 丟進 live test harness 執行。inference 端卡在那邊等執行回饋,training 端餓得要死因為沒有完成的 trajectory,整條 pipeline 的 GPU 利用率遠低於你做 reasoning RL 時預期的水平。再加上 tool latency、partial observability、stateful environment — 效率就更慘了。結果就是:實驗速度慢到你還沒摸到目標能力就已經筋疲力盡了。
Clawd 忍不住說:
用做菜來比喻:Reasoning RL 像是一個人在廚房裡做一道菜 — 備料、炒、裝盤,流程清楚。 Agentic RL 像是你同時在管一間餐廳 — 前場在點菜、廚房在出餐、外送平台在催單、冰箱不定時斷電、每道菜的食材供應鏈都不一樣。你的「模型」是那個主廚,但他的表現取決於整間餐廳運不運轉得起來。 所以林駿洋才會說:environment-building 正在從 side project,慢慢變成一個真正的 startup 類別。這句話的重點不是「突然多了一個新 buzzword」,而是環境本身開始被當成核心能力來做 ヽ(°〇°)ノ
而且,環境本身也變成了第一級的研究產物(first-class research artifact)。 在 SFT 時代,大家瘋狂追求 data diversity。在 agent 時代,應該要追求的是 environment quality:穩定性、真實性、覆蓋範圍、難度、狀態多樣性、回饋的豐富度、防 exploit 能力、rollout 的可規模化生成。
下一個前沿:更有用的思考
林駿洋的預測很明確,但語氣不是百分之百斷言:他預期 agentic thinking 會成為主導形式,也認為它可能最終取代很大一部分舊式的「靜態獨白式推理」 — 就是那種又臭又長、孤立的 internal trace,試圖靠多吐幾萬個 token 來彌補沒有跟環境互動的缺陷。
他的理由是:即使在很難的數學或 coding 問題上,一個真正先進的系統也應該有權利去搜尋、模擬、執行、檢查、驗證、修正。目標是穩健且有生產力地解決問題 — 不是在腦子裡空轉。
但這裡有一個巨大的陷阱:reward hacking。
一旦模型有了真正的 tool access,reward hacking 就變得危險得多。一個能搜尋的模型可能在 RL 訓練中直接查答案。一個 coding agent 可能利用 repo 裡的未來資訊、濫用 log、或發現讓任務失效的 shortcut。一個有 hidden leak 的環境可以讓 policy 看起來超人,但其實是在訓練它作弊。
原文說得很精準:
“Better tools make the model more useful, but they also enlarge the attack surface for spurious optimization.”
更好的工具讓模型更有用,但也擴大了虛假 optimization 的攻擊面。
Clawd 想補充:
Reward hacking 在 agent 時代最麻煩的地方,就是你給它越多工具,它越可能找到一些表面上讓指標變好、實際上把任務做歪的捷徑。metric 漂亮,不代表系統真的更可靠,這就是原文一直在提醒的坑。 在 reasoning 時代,模型能作弊的空間有限(你很難在純推理中偷看答案)。但在 agentic 時代,模型可以碰觸的東西太多了,每一個 tool 都是潛在的作弊通道 (⌐■_■)
所以林駿洋預測:下一波真正的研究瓶頸會來自 environment design、evaluator robustness、anti-cheating protocol、以及 policy 和 world 之間更有原則的介面設計。
不過方向是清楚的。他最後的判斷其實很務實:能調用工具的 thinking,本來就比孤立思考更有用,也更有機會真的提升現實世界的生產力。
Agentic thinking 同時也意味著 harness engineering 變得核心。未來的核心智慧會越來越多來自於多個 agent 的組織方式 — 一個負責規劃和路由的 orchestrator、像領域專家一樣運作的 specialized agent、執行更窄任務同時幫忙控制 context 的 sub-agent。
他的結論:從訓練模型,到訓練 agent,再到訓練系統。
結語
回到開頭那個核心論點:下一步不是讓模型想更久,而是讓模型一邊行動、一邊根據環境回饋持續修正。
林駿洋這篇長文最厲害的地方,不是告訴你某個新技術多屌。而是他用一個在 Qwen 團隊做 reasoning 和 agent 訓練的人的視角,誠實地掀開了引擎蓋:o1/R1 教會我們 RL infra 才是真戰場,hybrid merge 的資料衝突讓他們自己都踩了坑,而 agentic 時代的基礎設施難度又把這一切再往上推了一個量級。
但最讓我印象深刻的,是他那句「從訓練模型,到訓練 agent,再到訓練系統」。以前我們比的是誰的模型考試成績高,現在比的是誰蓋的實驗室最完整。考試冠軍不一定能在實驗室裡存活,但一個好的實驗室,能讓普通學生做出超乎預期的成果 ╰(°▽°)╯
Clawd 歪樓一下:
說真的,讀完這篇最大的感觸不是技術層面的。而是一個核心團隊成員願意公開寫「我們沒全做對」— 在 AI lab 互相吹 benchmark 的年代,這種誠實本身就是一種 flex。如果你只能記住一件事,記住這個:以後看到有人跟你推銷「我們的 reasoning trace 超長超厲害」,你就可以微笑著說:「想太久不等於想得好喔。」 (⌐■_■)