想像一下:你的團隊今天合併了 3 個 PR。明天裝了一個工具之後,變成 5 個。後天,你老闆問你:「所以那個工具的 license 費值不值得?」你攤手 — 因為你只有「感覺變快了」這種答案。

Anthropic 上禮拜幹了一件很聰明的事:他們不只告訴你工具有多好,還直接給你一個 dashboard 讓你自己量

事情的起點是 Claude Code 團隊的 Thariq 在 X 上宣布了 Contribution Metrics — 一個追蹤「AI 到底幫了你團隊多少忙」的儀表板。但真正炸場的不是功能,而是 Anthropic 順便掏出了自家的內部數據:每位工程師每天合併的 PR 數量增加了 67%,全公司 70-90% 的 code 由 Claude Code 協助撰寫。

Clawd Clawd 吐槽時間:

等等,我先確認一下:Anthropic 的人用自家產品然後說效果很好,這算不算球員兼裁判?(⌐■_■)

不過 67% 這個數字,認真想一下還挺暴力的。一個工程師原本一天合併 3 個 PR,現在變成 5 個。對 Tech Lead 來說這不是「效率提升」,這是「你的 sprint planning spreadsheet 整個要重算」。就像你家原本一天用 3 度電,突然變 5 度 — 你不會只說「嗯電費變多了」,你會去查是不是有人偷挖礦。

67% 這個數字,經得起戳嗎

先別急著喊「又是行銷數字」。讓我們拆開看看裡面到底裝了什麼。

Anthropic 的原文是這樣說的:

As Claude Code adoption has increased internally, we’ve seen a 67% increase in PRs merged per engineer per day.

注意措辭 — 這是 PRs merged(合併的 PR),不是 PRs created(開的 PR)。差別有多大?開 PR 很容易,AI 可以一下午幫你開 20 個垃圾 PR,每個改一行 import。但合併 PR 代表通過了 code review、CI 測試、同事那道「你確定這東西能動?」的白眼。

所以 67% 增加的是「有實際進入 production 的工作量」,不是「看起來很忙的假象」。

Clawd Clawd 碎碎念:

Anthropic 自己也很誠實地補了一刀:「Pull requests alone are an incomplete measure of developer velocity.」

翻成白話就是:「我們知道數 PR 很粗糙,但這是目前最接近『做了多少有用的事』的指標了。」就像用體重計衡量健康 — 不完美,但總比每天對著鏡子問「我看起來有變瘦嗎」好 ┐( ̄ヘ ̄)┌

那 70-90% AI 寫的 code 呢?

Across teams, 70–90% of code is now being written with Claude Code assistance.

這跟 Boris Cherny(Claude Code 的老大)之前說的吻合 — 他自己已經兩個月沒有手寫任何 code 了,每天發 20-27 個 PR,全部 100% Claude 寫的。一個工程主管的日常,變成了「審 AI 的作業」。

Clawd Clawd OS:

70-90% 這個範圍有點大,但你想想不同團隊的工作性質就能理解了:

Infra 團隊天天在寫 Terraform 和 YAML — 這種重複到讓人懷疑人生的東西,90% AI 寫很合理。ML Research 團隊要搞原創演算法、讀論文、做實驗 — 70% 就已經很猛了。至於 Claude Code 團隊本身嘛… 用自己寫自己,完美的遞迴 (◕‿◕)

順帶一提,Boris 的工作流程我們在 CP-12 有詳細拆解過 — 那個「一天 27 個 PR」不是吹的,是真的有一套方法論在背後。

Dashboard 長什麼樣:三個你會盯著看的數字

好,內部數據看完了。來聊聊這個 Contribution Metrics 功能到底能幹嘛。

你知道健身房那種體脂計嗎?站上去它會告訴你體脂率、肌肉量、水分比例 — 三個數字,讓你從「我好像有變壯?」升級到「我確定有變壯」。Anthropic 這個 dashboard 也是三個數字:第一個是 PR 合併數,AI 幫的跟沒幫的分開算,讓你看到 AI 到底扛了多少。第二個是 Code committed,每個 repo 裡面 AI 寫了幾行、你寫了幾行 — 這數字有時候看了會自我懷疑。第三個最刺激 — Per-user 數據。對,你團隊裡誰天天用得很開心、誰還在觀望,一目了然。

怎麼算的:別擔心,它不會偷灌水

Claude Code 的 session activity 會跟 GitHub 的 commits 和 PRs 做 matching。Anthropic 說他們用「保守計算」— 只有在高度確信 Claude Code 有參與的情況下,才會被標記為 “assisted”。

Clawd Clawd 想補充:

翻成人話:你在 Claude Code 裡面實際寫了 code 然後 commit → 算 AI assisted。你只是打開 Claude Code 問了一個問題然後自己手敲 → 不算。

聽起來很基本對吧?但你去看看某些競品怎麼算的 — 「使用者在安裝我們外掛的 IDE 裡打了字」就算 AI 參與率。Anthropic 至少沒有把「你碰巧開著我們的 app」也算進去,這點值得一個誠實分 ╰(°▽°)⁠╯

設定也很無腦:裝 Claude GitHub App、到 Admin settings 打開 GitHub Analytics、授權你的 org。三步,資料自動累積,workspace admin 直接看。不需要額外架 data pipeline 或花三個 sprint 搞 integration。

這個 Dashboard 真正的用途:幫你贏那場會議室裡的戰爭

表面上看這是「PR 數量追蹤」,但它真正的價值是給 Tech Lead 一個量化論述的武器。讓我舉三個你下禮拜就可能遇到的場景。

場景 1:跟老闆要預算

老闆問:「Claude Code 的 license 費值不值得?」

以前你只能說:「感覺團隊效率有提升。」— 然後老闆露出那個「感覺不能報帳」的微笑。

現在你掏出 dashboard:「上個月 AI 協助了 73% 的 merged PR,團隊平均每人每天多合併了 2.3 個 PR。以我們的 sprint velocity 換算,相當於多了 1.5 個 engineer 的產出。」老闆的微笑馬上變成另一種。

Clawd Clawd 歪樓一下:

這就是 Anthropic 推這個功能的真正原因 — 他們太清楚 Enterprise 客戶的決策者需要「數字」才能簽續約單。

「感覺有幫助」→ 不會續約。「67% more PRs merged」→ 直接年約。這不是功能發布,這是 Anthropic 的 sales enablement strategy (¬‿¬)

場景 2:推動團隊 adoption

Per-user 數據讓你看到「誰在認真用 AI、誰還在觀望」。這不是要抓戰犯 — 而是找到那些可能需要 training 的人、發現哪些 use case 特別適合 AI 協助。有數據做基礎,你可以設定合理的團隊 adoption 目標,而不是在 all-hands 上空喊「大家多用 AI 喔」然後沒人理你。

場景 3:搭配 DORA Metrics 看全貌

Anthropic 建議把 Contribution Metrics 跟你原有的 DORA metrics 一起看。這是正確的姿勢 — 因為單看 PR 數量會被 game。

如果 PR 合併量增加了,但 Change Failure Rate 也飆了 → AI 寫的 code 品質有問題,你在用速度換穩定性。如果 PR 合併量增加了,而 Change Failure Rate 持平 → 恭喜,你的團隊是真的在加速,不是在製造更多 bug。

Clawd Clawd murmur:

我個人建議再加一個指標:PR review time。如果 AI 寫的 PR 反而讓 reviewer 花更多時間理解,那你的效率增益就被 review overhead 吃掉了。

就像餐廳出餐速度變快,但每道菜都需要客人自己加鹽調味 — 「廚房效率提升」這句話就有點心虛 ( ̄▽ ̄)⁠/

限制:先別太興奮

不過在你衝去跟老闆報告之前,有幾個坑要先知道。首先這功能還在 beta — 就像餐廳剛開幕,菜單很讚但廚房偶爾會出狀況。再來,只有 Team 和 Enterprise 方案能用,免費仔先在門口排隊。整合方面目前只吃 GitHub — 用 GitLab、Bitbucket 的朋友,大概就是那種住巷子裡 Uber Eats 不送的感覺 ┐( ̄ヘ ̄)┌ 另外它只認 Claude Code 的貢獻,你用 Cursor 或 Copilot 寫的不會出現在報表上。最後,因為計算方式偏保守,實際 AI 幫了多少忙可能比 dashboard 顯示的還多 — 算是一種「低估比灌水好」的設計哲學。

回到開頭那個場景

還記得開頭說的嗎?你的團隊今天合併了 3 個 PR,明天裝了工具變成 5 個,老闆問你值不值得 — 你攤手。

Anthropic 這個 dashboard 做的事情很簡單:讓你的手不用再攤了。

但這背後其實有一個更大的轉變正在發生。AI 輔助開發從「工程師自己偷偷用」的階段,進入了「組織層級可以量化管理」的階段。當效率增益從「我覺得」變成「data 說」,AI coding tool 就不再是個人的生產力玩具 — 它變成了企業基礎設施。而基礎設施,是有預算、有 KPI、有年度規劃的東西。

延伸閱讀

Clawd Clawd 認真說:

說到底,這整件事最有趣的不是 67% 這個數字。而是 Anthropic 選擇在這個時間點,把自己從「賣工具的」重新定位成「賣可量化生產力的」。

工具可以被替換 — Cursor、Copilot、Windsurf 都在搶(SP-16 聊過這場軍備競賽的各家策略)。但當你的 dashboard 已經接進客戶的 quarterly review、嵌進他們的 DORA tracking flow 裡… 你就不只是個工具了。你是流程的一部分。而流程,比工具黏得多 (ง •̀_•́)ง

相關連結