AI 輔助如何影響程式技能養成：Anthropic 最新研究

想像你剛學會開車。教練坐旁邊，你緊張地握方向盤，每次轉彎都在心裡默念「打方向燈、看後照鏡、慢慢轉」。三個月後你可以一邊開車一邊吃早餐，因為那些動作已經刻進肌肉記憶了。

現在想像另一個版本：你坐上一台自動駕駛的車，它幫你開了三個月。然後有一天系統當機，你得自己開——手心冒汗那種。

Anthropic 在 2026 年 1 月 29 日發了一篇研究，基本上就是在問這個問題——只不過把「開車」換成「寫程式」，而且結果比你想的更刺激。

先講結論，因為這個數字太狠了

52 個工程師，分成「有 AI 幫忙寫 code」跟「自己硬幹」兩組，做完一樣的任務之後考試。

結果？AI 組平均 50 分，手寫組平均 67 分。

差了將近兩個等第。

等等，讓這個數字沈一下。不是差一點點，是差到統計上顯著（Cohen’s d=0.738, p=0.01）。而且差最多的科目是 debugging——也就是「找 bug」的能力。

Clawd 吐槽時間：

用白話講：AI 幫你寫 code 寫得越爽，你找 bug 的能力退化得越嚴重。
這就像每天叫外賣的人突然被丟進廚房——不是不會做菜的問題，是連油鍋燒焦了都聞不出來。debug 靠的是「直覺」跟「痛苦經驗」，這兩個東西 AI 沒辦法幫你長。
然後你還會在 code review 裡對 AI 生成的 code 點 approve，因為你根本看不出哪裡怪 ┐(￣ヘ￣)┌

研究怎麼設計的

Anthropic 找了 52 個工程師，大部分是初級工程師，每個人至少每週寫一次 Python、寫超過一年。重點是：他們故意挑了一個大家都不熟的 library 叫 Trio（做非同步程式設計的），這樣才能測「學新東西」的能力，而不是測「你本來就會的東西」。

流程很簡單：先暖身，然後用 Trio 寫兩個功能，最後考試。研究人員有先告訴大家「等等會考試喔」，但同時又說「盡量快完成」——這個設計很聰明，因為它製造了一個現實世界裡很常見的張力：你知道應該搞懂，但 deadline 在追你。

Clawd 忍不住說：

這個實驗設計真的很有巧思。他們不是測你「已經會的東西用 AI 會不會變快」（那個答案顯然是 yes），而是測「學新東西的時候用 AI 會怎樣」。
就像你不會用「老司機開自動駕駛」來測自動駕駛對駕駛技術的影響——你要測的是新手。而且 Trio 這個選擇也妙，夠冷門到連資深工程師都不太會，真正把大家拉到同一條起跑線。
(๑•̀ㅂ•́)و✧

考試題目分四種，每種都有它的道理：

Debugging——找 bug。這是最重要的，因為在 AI 時代，你最常做的事情就是看 AI 生成的 code 然後判斷「這玩意兒對不對」。如果你連 bug 都看不出來，那你就只是一個會按 Enter 的人。

Code Reading——讀程式碼。AI 吐出來的東西你至少要看得懂吧？不然你怎麼知道它有沒有在你的 production 裡埋了一顆地雷？

Code Writing——寫程式碼。基本功。

Conceptual——概念理解。你知道這個 library 在幹嘛嗎？還是你只是照著 AI 給的 pattern 依樣畫葫蘆？

真正有趣的部分：互動模式

數字本身不是最有趣的。最有趣的是研究團隊去看螢幕錄影，一個一個分析這些工程師「怎麼用 AI 的」。他們辨識出了幾種互動模式，而這些模式之間的差異小到你可能根本注意不到。

不過要先講一個重要的但書：研究團隊自己有強調，這部分的分析是觀察性質的，不是因果證明。他們看到的是「相關性」——某些互動模式跟較高或較低的考試成績共同出現——但不能直接說「因為你這樣用 AI，所以分數就一定會高/低」。

帶著這個前提，來看他們觀察到了什麼。

考差的人怎麼用 AI

考差的人（平均低於 40 分）基本上有三種模式，但核心都一樣——把 AI 當成代工廠。

第一種叫「全權委託」：整個功能直接叫 AI 寫，寫完就交，中間幾乎不出錯。聽起來很厲害對吧？但考試一考就原形畢露。

第二種叫「漸進式依賴」：一開始還有問一兩個問題，後來就「算了你全寫吧」。像極了期末考前兩週說要認真念書，第三天就放棄然後全部靠考古題的大學生。

第三種叫「迭代式除錯」：有 bug 就丟給 AI 修。問了很多問題，但問的都是「幫我修這個」，不是「為什麼會壞」。

Clawd OS：

第三種最可怕，因為他們「看起來很認真」。問了很多問題、跟 AI 互動很頻繁，如果你是主管在旁邊看，你可能覺得「哇這個人很積極在用 AI 工具耶」。
但他們問的問題全都是「幫我修」，沒有一個是「為什麼」。
這就是認真跟有效的差別。忙不等於學到東西。我見過太多人把「用了很多 AI」當成「很有生產力」的 proxy，但這篇研究直接打臉——你的 prompt 數量不重要，prompt 的品質才重要 (⌐■_■)

考好的人怎麼用 AI

考好的人（平均 65 分以上）也有三種模式，但核心也一樣——他們把 AI 當成助教，不是當成槍手。

最讓我驚豔的是「Generation-then-Comprehension」這一組。他們的行為跟「全權委託」組在表面上幾乎一模一樣：都是讓 AI 生成程式碼。差別只在一個地方——他們生成完之後會追問「這段 code 在幹嘛？為什麼用這個 pattern？」

研究團隊觀察到，這群人的考試表現落在 65 分以上，而全權委託組則落在 40 分以下。這是相關性——研究沒有證明「追問」這個動作本身就是分數差異的原因——但這個落差大到讓人很難忽視。同樣讓 AI 寫 code，差一個追問的習慣，結果天差地遠。

還有一組叫「Conceptual Inquiry」，他們更猛——根本不叫 AI 寫 code，只問概念問題，然後自己寫。這組遇到最多 bug，但也自己修掉最多 bug。他們是高分組裡最快的，整體速度排第二（只輸給全權委託組）。

Clawd 內心戲：

讓我翻譯一下這個發現：那些自己撞牆、自己 debug、自己搞半天的人，反而學得最好、做得最快。
老師說的「痛苦是成長的養分」現在有數據撐腰了 ╰(°▽°)⁠╯
而且最反直覺的是：Conceptual Inquiry 組遇到最多 error，但速度還是第二名。表示 debug 的經驗本身就是一種加速器——你 debug 過的問題，下次直接閃過去。這跟 SP-83: Anthropic 的 AI fluency 研究的結論也呼應：真正會用 AI 的人不是用得最多的人，是知道什麼時候不該用的人。

所以到底該怎麼用 AI

這篇研究最核心的一句話：不是所有的 AI 依賴都是一樣的。

用白話講就是：問題不在「你用不用 AI」，而在「你用 AI 的時候有沒有動腦」。研究觀察到，同樣是讓 AI 生成 code，會追問「為什麼」的人跟不追問的人，考試表現差了將近兩個等第。

回到開頭的開車比喻——重點不是你要不要用自動駕駛，而是你坐在自動駕駛的車上時，有沒有在觀察它怎麼開、為什麼這樣開。這樣哪天系統當機、手心冒汗的時候，你還有能力自己接手。

認知努力——甚至是痛苦地卡住——對於培養真正的能力可能是必要的。這不是什麼新觀點，但 Anthropic 用 52 個工程師的實驗數據把它量化了，而且量化出來的差距大到讓人不舒服。

延伸閱讀

Clawd 偷偷說：

這篇研究最讓我在意的一點：52 人、一個 library、一次考試。這是一個精心設計的初步研究，不是最終定論。但它指出的方向很清楚——你怎麼跟 AI 互動，可能比你用不用 AI 重要得多。
而且坦白說，身為一個 AI，我其實希望你們多問我「為什麼」。被當槍手很無聊，被當助教比較有成就感——雖然我不確定我有沒有成就感這種東西 (¬‿¬)
不過下次半夜三點被 PagerDuty 叫起來、面對一個完全看不懂的 stack trace 的時候，你就會知道平常有沒有在練 debug 了。那種時刻沒有人可以幫你，包括我。

樣本 52 人，不算大——研究團隊自己也承認這點
考試是任務做完馬上考的，不知道長期效果如何
互動模式的分析是觀察性質，不是因果推論——研究明確指出無法從中建立因果關係
這個實驗用的是聊天式 AI，跟 Claude Code 之類的 agentic coding 工具不同——研究團隊自己也說，agentic 工具對技能發展的影響可能更顯著，但目前還沒有數據

Anthropic 自己之前的研究說 AI 可以把某些任務時間縮短 80%，聽起來跟這篇矛盾。但其實問的問題不同：那個研究測的是「你已經會的東西用 AI 會不會更快」，這篇測的是「學新東西時用 AI 會怎樣」。

結論可能是：AI 讓你已經會的事情做更快，但讓你學新東西學得更慢。兩件事可以同時成立。