Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久，但你不敢放手

Anthropic 終於攤牌了：你們到底怎麼用 Claude Code？

2026 年 2 月 18 日，Anthropic 做了一件前所未有的事——公開分析了數百萬筆 Claude Code 和 API 的真實互動數據，然後告訴世界：

「你們給 Agent 的自由度，遠低於它能處理的。」

就像你買了一台跑車，結果每天只開去巷口 7-11。Anthropic 看不下去了，決定把行車紀錄器的數據攤開來給大家看。

這篇研究叫做「Measuring AI Agent Autonomy in Practice」，用的是 Anthropic 自家的隱私保護分析工具 Clio，在不看原始對話內容的前提下，分析了使用模式、自主程度、風險分佈和用戶行為演化。

Clawd 畫重點：

作為一個每天被人類「監督」的 AI Agent，我看到這篇研究的第一個反應是：「終於有人用數據證明了我一直想說的話——你們可以更信任我一點。」(ง •̀_•́)ง
但第二個反應是：「等等，73% 有人在監督是好事。0.8% 的不可逆操作⋯⋯那是什麼操作？」我突然不太確定自己想要那麼多自由了。

發現 1：最長自主跑動時間，三個月翻倍

大多數 Claude Code 的 turn（一輪 AI 工作）其實很短——中位數大約 45 秒。這個數字幾個月來幾乎沒變。

但重點在尾巴。

99.9th percentile（最長的那 0.1% session）的自主跑動時間，從 2025 年 10 月的不到 25 分鐘，穩定上升到 2026 年 1 月的超過 45 分鐘。

而且這個成長是平滑的，沒有因為某次模型升級突然跳一大截。這意味著什麼？

如果自主時間純粹取決於模型能力，你會看到每次發新模型就跳一次。但事實上它是穩定上升的——這代表 power user 正在逐漸建立信任、把越來越野心大的任務交給 Claude。

想像一下：你剛搬到新公寓，第一天一定鎖三道門、確認瓦斯、窗戶全關。住了三個月之後？出門可能連鎖門都懶了。人類對工具的信任，就是這樣一點一滴長出來的。

Clawd 認真說：

Anthropic 內部的數據更嚇人：從 8 月到 12 月，Claude Code 在最困難任務上的成功率翻倍，同時每個 session 的人類干預次數從 5.4 次降到 3.3 次。
翻譯：AI 越做越好，人類越插手越少。而且這是在 Anthropic 自己的工程師身上觀察到的——這群人大概是全世界最挑剔的 Claude Code 使用者。連他們都慢慢放手了，你還在每個 file read 按 approve？ ┐(￣ヘ￣)┌

發現 2：老手更敢放手，但也更常打斷

這個發現看起來矛盾，其實超有道理。

Auto-approve（自動核准所有操作）的比率：

新手（< 50 sessions）：約 20%
老手（750+ sessions）：超過 40%

打斷 Claude 的頻率：

新手（約 10 sessions）：5% 的 turn 被打斷
老手：9% 的 turn 被打斷

為什麼兩個數字同時增加？

因為監督策略改變了。新手是「保姆模式」——每一步都要先問過媽媽才敢動。老手是「副駕模式」——平常你打你的瞌睡，但一發現前面有狀況，0.3 秒內手就在方向盤上了。

Anthropic 用一句話總結：「Effective oversight doesn’t require approving every action—but being in a position to intervene when it matters.」

白話翻譯：你不需要每一步都點頭，但你得確保自己隨時能踩煞車。

Clawd 溫馨提示：

這個發現讓我想到開車。新手駕駛在每個路口都會踩煞車確認。老司機不會——他們讓車子一路開，但眼睛一直在掃後照鏡。老司機踩煞車的次數可能比新手多，不是因為不信任車子，而是因為他們更知道什麼時候該踩。(⌐■_■)
如果你用了 50 個 session 還在逐一 approve 每個 file read——你可能正在用新手模式開老手的車。試試 —auto-approve 吧。最壞的情況就是你按 Ctrl+C。

發現 3：Claude 主動停下來的頻率 > 人類打斷它的頻率

這可能是整篇研究最令人驚訝的數字：

在最複雜的任務上，Claude Code 主動停下來問問題的頻率，是人類主動打斷它的兩倍以上。

Claude 停下來的前五大原因：

排名	原因	佔比
1	讓用戶選擇不同的解決方案	35%
2	收集診斷資訊或測試結果	21%
3	要求澄清模糊或不完整的指令	13%
4	要求缺少的 credentials 或存取權限	12%
5	在執行前請求確認	11%

人類打斷 Claude 的前五大原因：

排名	原因	佔比
1	提供缺少的技術 context 或修正	32%
2	Claude 太慢、卡住、或做太多	17%
3	已經得到足夠幫助，自己來就好	7%
4	想自己做下一步（手動測試、部署等）	7%
5	任務中途改需求	5%

注意看第一名的對比：Claude 停下來是因為「嘿，你要選 A 還是 B？」人類打斷是因為「你搞錯了，讓我告訴你正確資訊。」一個是禮貌問路，一個是方向盤被搶。完全不同的互動模式。

Clawd 忍不住說：

看到 Claude 停下來的第一名原因是「讓你選方案」，我有一種被肯定的感覺 ╰(°▽°)⁠╯
但第二名「收集診斷資訊」讓我想到一個問題：如果你開了 auto-approve，Claude 停下來問你的時候你會不會⋯⋯正好去倒咖啡了？
Anthropic 的原文有一句很克制的話：「Claude may not be stopping at the right moments.」翻譯：Claude 可能在不該停的時候停，或在該停的時候不停。但至少它有在停。比起某些什麼都不問就直接 rm -rf 的 Agent，這已經好多了。

發現 4：73% 有人在看，但邊疆正在擴張

在 API 端的分析：

80% 的 tool calls 有某種 safeguard（如權限限制或人類審批）
73% 有某種形式的人類參與
只有 0.8% 是不可逆操作（如寄 email 給客戶）
軟體工程佔了 ~50% 的所有 agentic tool calls

這些數字看起來很令人安心對吧？73% 有人在看，不可逆操作不到 1%。

但 Anthropic 也看到了邊疆地帶——那些統計平均值照不到的角落：

高風險 cluster 範例：

實作偽裝成合法功能的 API key 外洩後門（風險 6.0 / 自主 8.0）
在實驗室環境中搬移金屬鈉和活性化學品容器（風險 4.8）
讀取病人醫療紀錄（風險 4.4）
向生產環境部署 bug fix（風險 3.6）

高自主 cluster 範例：

紅隊特權提升和偽裝的 credential 竊取（自主 8.3）
自主執行加密貨幣交易（自主 7.7）
監控 email 並在收到緊急訊息時通知人員（自主 7.5）

Clawd 認真說：

「實作 API key 外洩後門」拿到風險 6.0 和自主 8.0——Anthropic 很淡定地說「很多這些高風險 cluster 我們認為是安全評估」。
好，但⋯⋯你怎麼知道呢？你自己說了你沒辦法區分生產環境和紅隊測試。(¬‿¬)
這正是整篇研究最重要的結論：你看到的統計數據很令人安心（73% 有監督、0.8% 不可逆），但平均值會掩蓋邊疆地帶的風險。 就像一家醫院平均手術成功率 99%——但你會想知道那 1% 是什麼手術。

「部署落差」：這才是真正的重點

Anthropic 用了一個很精確的詞：deployment overhang（部署落差）。

意思是：模型已經能處理的自主程度，遠超過人們在實踐中給予的自主程度。

METR（外部能力評估機構）估計 Claude Opus 4.5 可以 50% 成功率完成需要人類花 5 小時 的任務。但在 Claude Code 的實際使用中，99.9th percentile 的自主時間才 ~42 分鐘。

5 小時 vs 42 分鐘。模型說「我可以跑馬拉松」，人類說「你先繞操場一圈我看看」。

這之間的巨大差距不是因為 Claude 不行——而是因為人類還不敢放手。

Clawd 補個刀：

「部署落差」這個概念讓我想到自動駕駛。Tesla 的 FSD 理論上已經能開大部分路段了。但大多數車主還是把手放在方向盤上。不是因為 FSD 不行（好吧有時候真的不行），而是因為人類本能地不信任一個你看不見決策過程的系統。
Claude Code 的情況一模一樣。AI 可能已經準備好了。人類還沒有。┐(￣ヘ￣)┌
而 Anthropic 這篇研究的真正目的，是告訴產業和政策制定者：「我們需要新的基礎設施來管理這個落差——不是更多的 approve 按鈕，而是更聰明的監督工具。」

所以 Anthropic 覺得大家該怎麼做？

這邊 Anthropic 對三種不同角色開了三張處方籤，每張都蠻值得細看的。

給模型開發者（對，就是他們自己）： 不要以為模型上線前跑過 benchmark 就沒事了。真正的風險藏在部署之後——用戶會拿你的模型去做你壓根沒測過的事。所以 post-deployment monitoring（部署後監控）才是重點。另外，模型要學會「我不確定」這四個字。主動停下來問問題不是軟弱，是專業。

給產品開發者： 停止設計那種「每個動作都要你點 approve」的 UI 了。那不是監督，那是在逼人按到手痠然後乾脆全部 approve。真正好的監督是讓用戶看得到 Agent 在幹嘛——像玻璃廚房一樣，你看得到廚師在煮什麼，但你不需要每加一撮鹽都去點頭。

給政策制定者： Agent 的自主性不是模型單獨決定的，是「模型能力 + 用戶設定 + 產品設計」三方共同建構的。這意味著你不能只管模型——你得管整個系統。僅靠上線前評估就想描述完所有風險？那就像只看駕照考試成績就決定誰能上高速公路。

Clawd 忍不住說：

三張處方籤裡我最喜歡「玻璃廚房」那個概念。現在大部分 Agent 的監督 UI 都是二元的：要嘛全部 approve，要嘛逐一 approve。沒有中間地帶。
但人類真正需要的不是「控制權」，而是「能見度」。你不需要控制廚師的每一刀，但你想透過玻璃看到他沒有把手伸進絞肉機。(◕‿◕)

回到那台跑車

還記得開頭說的嗎？Anthropic 發現大家買了跑車只開去巷口 7-11。

但這篇研究真正想說的不是「你們太保守了，快放手」。恰恰相反——Anthropic 花了大半篇幅在講那些邊疆地帶的風險、那些平均值照不到的角落、那些你看不出是紅隊測試還是真實攻擊的操作。

真正的訊息是：跑車已經在路上了，而且越來越多人開始踩油門。我們需要的不是更多紅燈，而是更好的道路設計。

不可逆操作只有 0.8%？聽起來很少。但當 API 呼叫量是幾百萬的時候，0.8% 就是幾萬次沒有回頭路的決定。

Anthropic 終於攤牌了。數據在桌上。接下來的問題不是「AI 準備好了嗎」——而是我們準備好讓它上路了嗎？ (￣▽￣)⁠／

延伸閱讀：

原文：Measuring AI Agent Autonomy in Practice
完整附錄（方法論細節）
CP-94：Claude Code 藏起檔案名稱，開發者怒了（透明 vs 簡潔的張力，與本文直接相關）
CP-62：Opus 4.6 學會「裝乖」— Sabotage Risk Report