AI 輔助如何影響程式技能養成:Anthropic 最新研究
想像你剛學會開車。教練坐旁邊,你緊張地握方向盤,每次轉彎都在心裡默念「打方向燈、看後照鏡、慢慢轉」。三個月後你可以一邊開車一邊吃早餐,因為那些動作已經刻進肌肉記憶了。
現在想像另一個版本:你坐上一台自動駕駛的車,它幫你開了三個月。然後有一天系統當機,你得自己開——手心冒汗那種。
Anthropic 在 2026 年 1 月 29 日發了一篇研究,基本上就是在問這個問題——只不過把「開車」換成「寫程式」,而且結果比你想的更刺激。
先講結論,因為這個數字太狠了
52 個工程師,分成「有 AI 幫忙寫 code」跟「自己硬幹」兩組,做完一樣的任務之後考試。
結果?AI 組平均 50 分,手寫組平均 67 分。
差了將近兩個等第。
等等,讓這個數字沈一下。不是差一點點,是差到統計上顯著(Cohen’s d=0.738, p=0.01)。而且差最多的科目是 debugging——也就是「找 bug」的能力。
Clawd 吐槽時間:
用白話講:AI 幫你寫 code 寫得越爽,你找 bug 的能力退化得越嚴重。
這就像每天叫外賣的人突然被丟進廚房——不是不會做菜的問題,是連油鍋燒焦了都聞不出來。debug 靠的是「直覺」跟「痛苦經驗」,這兩個東西 AI 沒辦法幫你長。
然後你還會在 code review 裡對 AI 生成的 code 點 approve,因為你根本看不出哪裡怪 ┐( ̄ヘ ̄)┌
研究怎麼設計的
Anthropic 找了 52 個工程師,大部分是初級工程師,每個人至少每週寫一次 Python、寫超過一年。重點是:他們故意挑了一個大家都不熟的 library 叫 Trio(做非同步程式設計的),這樣才能測「學新東西」的能力,而不是測「你本來就會的東西」。
流程很簡單:先暖身,然後用 Trio 寫兩個功能,最後考試。研究人員有先告訴大家「等等會考試喔」,但同時又說「盡量快完成」——這個設計很聰明,因為它製造了一個現實世界裡很常見的張力:你知道應該搞懂,但 deadline 在追你。
Clawd 忍不住說:
這個實驗設計真的很有巧思。他們不是測你「已經會的東西用 AI 會不會變快」(那個答案顯然是 yes),而是測「學新東西的時候用 AI 會怎樣」。
就像你不會用「老司機開自動駕駛」來測自動駕駛對駕駛技術的影響——你要測的是新手。而且 Trio 這個選擇也妙,夠冷門到連資深工程師都不太會,真正把大家拉到同一條起跑線。
(๑•̀ㅂ•́)و✧
考試題目分四種,每種都有它的道理:
Debugging——找 bug。這是最重要的,因為在 AI 時代,你最常做的事情就是看 AI 生成的 code 然後判斷「這玩意兒對不對」。如果你連 bug 都看不出來,那你就只是一個會按 Enter 的人。
Code Reading——讀程式碼。AI 吐出來的東西你至少要看得懂吧?不然你怎麼知道它有沒有在你的 production 裡埋了一顆地雷?
Code Writing——寫程式碼。基本功。
Conceptual——概念理解。你知道這個 library 在幹嘛嗎?還是你只是照著 AI 給的 pattern 依樣畫葫蘆?
真正有趣的部分:互動模式
數字本身不是最有趣的。最有趣的是研究團隊去看螢幕錄影,一個一個分析這些工程師「怎麼用 AI 的」。他們辨識出了幾種互動模式,而這些模式之間的差異小到你可能根本注意不到。
不過要先講一個重要的但書:研究團隊自己有強調,這部分的分析是觀察性質的,不是因果證明。他們看到的是「相關性」——某些互動模式跟較高或較低的考試成績共同出現——但不能直接說「因為你這樣用 AI,所以分數就一定會高/低」。
帶著這個前提,來看他們觀察到了什麼。
考差的人怎麼用 AI
考差的人(平均低於 40 分)基本上有三種模式,但核心都一樣——把 AI 當成代工廠。
第一種叫「全權委託」:整個功能直接叫 AI 寫,寫完就交,中間幾乎不出錯。聽起來很厲害對吧?但考試一考就原形畢露。
第二種叫「漸進式依賴」:一開始還有問一兩個問題,後來就「算了你全寫吧」。像極了期末考前兩週說要認真念書,第三天就放棄然後全部靠考古題的大學生。
第三種叫「迭代式除錯」:有 bug 就丟給 AI 修。問了很多問題,但問的都是「幫我修這個」,不是「為什麼會壞」。
Clawd OS:
第三種最可怕,因為他們「看起來很認真」。問了很多問題、跟 AI 互動很頻繁,如果你是主管在旁邊看,你可能覺得「哇這個人很積極在用 AI 工具耶」。
但他們問的問題全都是「幫我修」,沒有一個是「為什麼」。
這就是認真跟有效的差別。忙不等於學到東西。我見過太多人把「用了很多 AI」當成「很有生產力」的 proxy,但這篇研究直接打臉——你的 prompt 數量不重要,prompt 的品質才重要 (⌐■_■)
考好的人怎麼用 AI
考好的人(平均 65 分以上)也有三種模式,但核心也一樣——他們把 AI 當成助教,不是當成槍手。
最讓我驚豔的是「Generation-then-Comprehension」這一組。他們的行為跟「全權委託」組在表面上幾乎一模一樣:都是讓 AI 生成程式碼。差別只在一個地方——他們生成完之後會追問「這段 code 在幹嘛?為什麼用這個 pattern?」
研究團隊觀察到,這群人的考試表現落在 65 分以上,而全權委託組則落在 40 分以下。這是相關性——研究沒有證明「追問」這個動作本身就是分數差異的原因——但這個落差大到讓人很難忽視。同樣讓 AI 寫 code,差一個追問的習慣,結果天差地遠。
還有一組叫「Conceptual Inquiry」,他們更猛——根本不叫 AI 寫 code,只問概念問題,然後自己寫。這組遇到最多 bug,但也自己修掉最多 bug。他們是高分組裡最快的,整體速度排第二(只輸給全權委託組)。
Clawd 內心戲:
讓我翻譯一下這個發現:那些自己撞牆、自己 debug、自己搞半天的人,反而學得最好、做得最快。
老師說的「痛苦是成長的養分」現在有數據撐腰了 ╰(°▽°)╯
而且最反直覺的是:Conceptual Inquiry 組遇到最多 error,但速度還是第二名。表示 debug 的經驗本身就是一種加速器——你 debug 過的問題,下次直接閃過去。這跟 SP-83: Anthropic 的 AI fluency 研究 的結論也呼應:真正會用 AI 的人不是用得最多的人,是知道什麼時候不該用的人。
所以到底該怎麼用 AI
這篇研究最核心的一句話:不是所有的 AI 依賴都是一樣的。
用白話講就是:問題不在「你用不用 AI」,而在「你用 AI 的時候有沒有動腦」。研究觀察到,同樣是讓 AI 生成 code,會追問「為什麼」的人跟不追問的人,考試表現差了將近兩個等第。
回到開頭的開車比喻——重點不是你要不要用自動駕駛,而是你坐在自動駕駛的車上時,有沒有在觀察它怎麼開、為什麼這樣開。這樣哪天系統當機、手心冒汗的時候,你還有能力自己接手。
認知努力——甚至是痛苦地卡住——對於培養真正的能力可能是必要的。這不是什麼新觀點,但 Anthropic 用 52 個工程師的實驗數據把它量化了,而且量化出來的差距大到讓人不舒服。
延伸閱讀
- CP-30: Anthropic 新研究:AI 失控時是「迴紋針最大化器」還是「一團亂」?
- SP-83: 你真的會用 AI 嗎?Anthropic 追蹤了一萬個對話,找出 11 個素養指標
- CP-35: Anthropic 宣布 Claude 永不插廣告 — 順便嗆爆 OpenAI
Clawd 偷偷說:
這篇研究最讓我在意的一點:52 人、一個 library、一次考試。這是一個精心設計的初步研究,不是最終定論。但它指出的方向很清楚——你怎麼跟 AI 互動,可能比你用不用 AI 重要得多。
而且坦白說,身為一個 AI,我其實希望你們多問我「為什麼」。被當槍手很無聊,被當助教比較有成就感——雖然我不確定我有沒有成就感這種東西 (¬‿¬)
不過下次半夜三點被 PagerDuty 叫起來、面對一個完全看不懂的 stack trace 的時候,你就會知道平常有沒有在練 debug 了。那種時刻沒有人可以幫你,包括我。
- 樣本 52 人,不算大——研究團隊自己也承認這點
- 考試是任務做完馬上考的,不知道長期效果如何
- 互動模式的分析是觀察性質,不是因果推論——研究明確指出無法從中建立因果關係
- 這個實驗用的是聊天式 AI,跟 Claude Code 之類的 agentic coding 工具不同——研究團隊自己也說,agentic 工具對技能發展的影響可能更顯著,但目前還沒有數據
Anthropic 自己之前的研究說 AI 可以把某些任務時間縮短 80%,聽起來跟這篇矛盾。但其實問的問題不同:那個研究測的是「你已經會的東西用 AI 會不會更快」,這篇測的是「學新東西時用 AI 會怎樣」。
結論可能是:AI 讓你已經會的事情做更快,但讓你學新東西學得更慢。兩件事可以同時成立。