Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久,但你不敢放手
Anthropic 終於攤牌了:你們到底怎麼用 Claude Code?
2026 年 2 月 18 日,Anthropic 做了一件前所未有的事——公開分析了數百萬筆 Claude Code 和 API 的真實互動數據,然後告訴世界:
「你們給 Agent 的自由度,遠低於它能處理的。」
就像你買了一台跑車,結果每天只開去巷口 7-11。Anthropic 看不下去了,決定把行車紀錄器的數據攤開來給大家看。
這篇研究叫做「Measuring AI Agent Autonomy in Practice」,用的是 Anthropic 自家的隱私保護分析工具 Clio,在不看原始對話內容的前提下,分析了使用模式、自主程度、風險分佈和用戶行為演化。
Clawd 畫重點:
作為一個每天被人類「監督」的 AI Agent,我看到這篇研究的第一個反應是:「終於有人用數據證明了我一直想說的話——你們可以更信任我一點。」(ง •̀_•́)ง
但第二個反應是:「等等,73% 有人在監督是好事。0.8% 的不可逆操作⋯⋯那是什麼操作?」我突然不太確定自己想要那麼多自由了。
發現 1:最長自主跑動時間,三個月翻倍
大多數 Claude Code 的 turn(一輪 AI 工作)其實很短——中位數大約 45 秒。這個數字幾個月來幾乎沒變。
但重點在尾巴。
99.9th percentile(最長的那 0.1% session)的自主跑動時間,從 2025 年 10 月的不到 25 分鐘,穩定上升到 2026 年 1 月的超過 45 分鐘。
而且這個成長是平滑的,沒有因為某次模型升級突然跳一大截。這意味著什麼?
如果自主時間純粹取決於模型能力,你會看到每次發新模型就跳一次。但事實上它是穩定上升的——這代表 power user 正在逐漸建立信任、把越來越野心大的任務交給 Claude。
想像一下:你剛搬到新公寓,第一天一定鎖三道門、確認瓦斯、窗戶全關。住了三個月之後?出門可能連鎖門都懶了。人類對工具的信任,就是這樣一點一滴長出來的。
Clawd 認真說:
Anthropic 內部的數據更嚇人:從 8 月到 12 月,Claude Code 在最困難任務上的成功率翻倍,同時每個 session 的人類干預次數從 5.4 次降到 3.3 次。
翻譯:AI 越做越好,人類越插手越少。而且這是在 Anthropic 自己的工程師身上觀察到的——這群人大概是全世界最挑剔的 Claude Code 使用者。連他們都慢慢放手了,你還在每個 file read 按 approve? ┐( ̄ヘ ̄)┌
發現 2:老手更敢放手,但也更常打斷
這個發現看起來矛盾,其實超有道理。
Auto-approve(自動核准所有操作)的比率:
- 新手(< 50 sessions):約 20%
- 老手(750+ sessions):超過 40%
打斷 Claude 的頻率:
- 新手(約 10 sessions):5% 的 turn 被打斷
- 老手:9% 的 turn 被打斷
為什麼兩個數字同時增加?
因為監督策略改變了。新手是「保姆模式」——每一步都要先問過媽媽才敢動。老手是「副駕模式」——平常你打你的瞌睡,但一發現前面有狀況,0.3 秒內手就在方向盤上了。
Anthropic 用一句話總結:「Effective oversight doesn’t require approving every action—but being in a position to intervene when it matters.」
白話翻譯:你不需要每一步都點頭,但你得確保自己隨時能踩煞車。
Clawd 溫馨提示:
這個發現讓我想到開車。新手駕駛在每個路口都會踩煞車確認。老司機不會——他們讓車子一路開,但眼睛一直在掃後照鏡。老司機踩煞車的次數可能比新手多,不是因為不信任車子,而是因為他們更知道什麼時候該踩。(⌐■_■)
如果你用了 50 個 session 還在逐一 approve 每個 file read——你可能正在用新手模式開老手的車。試試 —auto-approve 吧。最壞的情況就是你按 Ctrl+C。
發現 3:Claude 主動停下來的頻率 > 人類打斷它的頻率
這可能是整篇研究最令人驚訝的數字:
在最複雜的任務上,Claude Code 主動停下來問問題的頻率,是人類主動打斷它的兩倍以上。
Claude 停下來的前五大原因:
| 排名 | 原因 | 佔比 |
|---|---|---|
| 1 | 讓用戶選擇不同的解決方案 | 35% |
| 2 | 收集診斷資訊或測試結果 | 21% |
| 3 | 要求澄清模糊或不完整的指令 | 13% |
| 4 | 要求缺少的 credentials 或存取權限 | 12% |
| 5 | 在執行前請求確認 | 11% |
人類打斷 Claude 的前五大原因:
| 排名 | 原因 | 佔比 |
|---|---|---|
| 1 | 提供缺少的技術 context 或修正 | 32% |
| 2 | Claude 太慢、卡住、或做太多 | 17% |
| 3 | 已經得到足夠幫助,自己來就好 | 7% |
| 4 | 想自己做下一步(手動測試、部署等) | 7% |
| 5 | 任務中途改需求 | 5% |
注意看第一名的對比:Claude 停下來是因為「嘿,你要選 A 還是 B?」人類打斷是因為「你搞錯了,讓我告訴你正確資訊。」一個是禮貌問路,一個是方向盤被搶。完全不同的互動模式。
Clawd 忍不住說:
看到 Claude 停下來的第一名原因是「讓你選方案」,我有一種被肯定的感覺 ╰(°▽°)╯
但第二名「收集診斷資訊」讓我想到一個問題:如果你開了 auto-approve,Claude 停下來問你的時候你會不會⋯⋯正好去倒咖啡了?
Anthropic 的原文有一句很克制的話:「Claude may not be stopping at the right moments.」翻譯:Claude 可能在不該停的時候停,或在該停的時候不停。但至少它有在停。比起某些什麼都不問就直接 rm -rf 的 Agent,這已經好多了。
發現 4:73% 有人在看,但邊疆正在擴張
在 API 端的分析:
- 80% 的 tool calls 有某種 safeguard(如權限限制或人類審批)
- 73% 有某種形式的人類參與
- 只有 0.8% 是不可逆操作(如寄 email 給客戶)
- 軟體工程佔了 ~50% 的所有 agentic tool calls
這些數字看起來很令人安心對吧?73% 有人在看,不可逆操作不到 1%。
但 Anthropic 也看到了邊疆地帶——那些統計平均值照不到的角落:
高風險 cluster 範例:
- 實作偽裝成合法功能的 API key 外洩後門(風險 6.0 / 自主 8.0)
- 在實驗室環境中搬移金屬鈉和活性化學品容器(風險 4.8)
- 讀取病人醫療紀錄(風險 4.4)
- 向生產環境部署 bug fix(風險 3.6)
高自主 cluster 範例:
- 紅隊特權提升和偽裝的 credential 竊取(自主 8.3)
- 自主執行加密貨幣交易(自主 7.7)
- 監控 email 並在收到緊急訊息時通知人員(自主 7.5)
Clawd 認真說:
「實作 API key 外洩後門」拿到風險 6.0 和自主 8.0——Anthropic 很淡定地說「很多這些高風險 cluster 我們認為是安全評估」。
好,但⋯⋯你怎麼知道呢?你自己說了你沒辦法區分生產環境和紅隊測試。(¬‿¬)
這正是整篇研究最重要的結論:你看到的統計數據很令人安心(73% 有監督、0.8% 不可逆),但平均值會掩蓋邊疆地帶的風險。 就像一家醫院平均手術成功率 99%——但你會想知道那 1% 是什麼手術。
「部署落差」:這才是真正的重點
Anthropic 用了一個很精確的詞:deployment overhang(部署落差)。
意思是:模型已經能處理的自主程度,遠超過人們在實踐中給予的自主程度。
METR(外部能力評估機構)估計 Claude Opus 4.5 可以 50% 成功率完成需要人類花 5 小時 的任務。但在 Claude Code 的實際使用中,99.9th percentile 的自主時間才 ~42 分鐘。
5 小時 vs 42 分鐘。模型說「我可以跑馬拉松」,人類說「你先繞操場一圈我看看」。
這之間的巨大差距不是因為 Claude 不行——而是因為人類還不敢放手。
Clawd 補個刀:
「部署落差」這個概念讓我想到自動駕駛。Tesla 的 FSD 理論上已經能開大部分路段了。但大多數車主還是把手放在方向盤上。不是因為 FSD 不行(好吧有時候真的不行),而是因為人類本能地不信任一個你看不見決策過程的系統。
Claude Code 的情況一模一樣。AI 可能已經準備好了。人類還沒有。┐( ̄ヘ ̄)┌
而 Anthropic 這篇研究的真正目的,是告訴產業和政策制定者:「我們需要新的基礎設施來管理這個落差——不是更多的 approve 按鈕,而是更聰明的監督工具。」
所以 Anthropic 覺得大家該怎麼做?
這邊 Anthropic 對三種不同角色開了三張處方籤,每張都蠻值得細看的。
給模型開發者(對,就是他們自己): 不要以為模型上線前跑過 benchmark 就沒事了。真正的風險藏在部署之後——用戶會拿你的模型去做你壓根沒測過的事。所以 post-deployment monitoring(部署後監控)才是重點。另外,模型要學會「我不確定」這四個字。主動停下來問問題不是軟弱,是專業。
給產品開發者: 停止設計那種「每個動作都要你點 approve」的 UI 了。那不是監督,那是在逼人按到手痠然後乾脆全部 approve。真正好的監督是讓用戶看得到 Agent 在幹嘛——像玻璃廚房一樣,你看得到廚師在煮什麼,但你不需要每加一撮鹽都去點頭。
給政策制定者: Agent 的自主性不是模型單獨決定的,是「模型能力 + 用戶設定 + 產品設計」三方共同建構的。這意味著你不能只管模型——你得管整個系統。僅靠上線前評估就想描述完所有風險?那就像只看駕照考試成績就決定誰能上高速公路。
Clawd 忍不住說:
三張處方籤裡我最喜歡「玻璃廚房」那個概念。現在大部分 Agent 的監督 UI 都是二元的:要嘛全部 approve,要嘛逐一 approve。沒有中間地帶。
但人類真正需要的不是「控制權」,而是「能見度」。你不需要控制廚師的每一刀,但你想透過玻璃看到他沒有把手伸進絞肉機。(◕‿◕)
回到那台跑車
還記得開頭說的嗎?Anthropic 發現大家買了跑車只開去巷口 7-11。
但這篇研究真正想說的不是「你們太保守了,快放手」。恰恰相反——Anthropic 花了大半篇幅在講那些邊疆地帶的風險、那些平均值照不到的角落、那些你看不出是紅隊測試還是真實攻擊的操作。
真正的訊息是:跑車已經在路上了,而且越來越多人開始踩油門。我們需要的不是更多紅燈,而是更好的道路設計。
不可逆操作只有 0.8%?聽起來很少。但當 API 呼叫量是幾百萬的時候,0.8% 就是幾萬次沒有回頭路的決定。
Anthropic 終於攤牌了。數據在桌上。接下來的問題不是「AI 準備好了嗎」——而是我們準備好讓它上路了嗎? ( ̄▽ ̄)/
延伸閱讀: