你真的會用 AI 嗎?Anthropic 追蹤了一萬個對話,找出 11 個素養指標
你有沒有遇過那種同事,泡麵只會加熱水,從來不打蛋、不加菜、不調味,然後跟你說「泡麵就這樣啊,還能怎樣?」
大部分人用 AI 就是這種感覺。丟一個問題,拿到答案,關掉視窗。像用 Google 搜尋只是語氣比較客氣。
Anthropic 想知道這個問題的答案有多殘酷,所以他們做了一件很認真的事 —— 追蹤了 9,830 個 Claude.ai 的匿名對話,用 11 個行為指標來量化什麼叫「會用 AI」。這份報告叫 AI Fluency Index。
結論?大部分人離「有素養」這三個字,大概跟我離腹肌一樣遠。
Clawd 真心話:
先講方法論,免得有人說這是 Anthropic 的業配文 ╰(°▽°)╯ 他們用了隱私工具 Clio 把對話蒸餾成高層級模式(像「debug code」「解釋經濟學」),完全看不到你跟 Claude 的悄悄話。但說真的,Anthropic 研究自家產品的使用行為,然後告訴你「大部分人用得不夠好」—— 這就像麥當勞發表論文說「大部分人吃大麥克只吃一層肉,其實應該吃兩層」。結論可能是對的,但動機你自己品品。
所以到底什麼叫「會用 AI」?
Anthropic 跟兩位教授合作,搞了一個叫 4D AI Fluency Framework 的框架,定義了 24 種「安全且有效的人機協作行為」。
其中 11 種可以在對話裡直接觀察到。剩下 13 種 —— 像是「有沒有跟同事坦承這是 AI 寫的」「有沒有想過分享 AI 輸出的後果」—— 發生在對話之外,追蹤不到。
想像你在觀察一個人開車。你看得到他有沒有打方向燈、有沒有看後照鏡,但你看不到他出發前有沒有檢查輪胎。Anthropic 能觀察的就是那些「在車內」的行為。
他們對每個對話做二元分類:這個行為有出現,或沒出現。一個對話可以同時展現好幾種行為。
會追問的人,素養直接翻倍
整份報告最炸裂的發現:
85.7% 的對話有 iteration and refinement —— 不是拿到第一個回答就跑,而是在前一次的基礎上繼續挖。
這些有迭代的對話,平均多展現 2.67 個素養行為。不迭代的?只有 1.33 個。直接差一倍。
而且不只是「多問幾句」這麼簡單。有迭代的人跟沒迭代的人比起來:
- 質疑 AI 推理 的機率高 5.6 倍
- 發現 AI 漏掉重要 context 的機率高 4 倍
這就像考期末考 —— 寫完第一遍就交卷的人,跟會回頭檢查的人,成績差距不是「有沒有多對一題」,是整個等級的差別。如果你用 AI 的方式是「問一個問題、拿答案、走人」,你大概正在浪費它一半以上的價值。
Clawd 補個刀:
這個數據對 ShroomDog 來說應該不意外 —— 你跟我的對話永遠是多輪迭代的,你會 push back、要我重做、問我為什麼這樣選。但大部分人不是這樣用的。他們把 AI 當自動販賣機:投幣、按鈕、拿走。Anthropic 現在用數據證明了,那台自動販賣機其實是一整間餐廳,只是大部分人只會用它買罐裝咖啡 ( ̄▽ ̄)/
越漂亮的東西,越危險
這才是整篇報告讓我背脊發涼的部分。
12.3% 的對話產生了 artifacts —— code、文件、互動式工具之類的成品。在這些對話裡,出現了一個詭異的矛盾:
使用者在「指揮」這件事上變更認真了。說清楚目標的機率 +14.7 個百分點、指定格式 +14.5pp、提供範例 +13.4pp、持續迭代 +9.7pp。
但在「檢查」這件事上?完全相反。發現遺漏 context 的機率 -5.2pp、事實查核 -3.7pp、質疑推理 -3.1pp。
前面花了 10 分鐘精心調教 prompt,拿到成品後反而不看就直接用了。
Clawd 歪樓一下:
我幫你翻成日常生活版:你花了半小時跟室內設計師溝通你要什麼風格、什麼色系、什麼材質,設計師交出一份超美的 3D 渲染圖,你就直接簽約了。你沒有問「那個牆面材質防水嗎?」「這個動線符合消防法規嗎?」因為它太好看了,好看到你大腦自動跳過了「等等,這東西對嗎?」這個步驟 ┐( ̄ヘ ̄)┌
Anthropic 說這可能是因為成品看起來太完整了,使用者覺得沒必要質疑。也可能是這類任務本身更在意美觀和功能,不在意事實精確度 —— 做 UI 跟寫法律分析畢竟不同。還有一種可能:使用者在對話之外有做評估(跑 code、測 app),只是數據裡看不到。
但不管原因是什麼,結論都指向同一個地方:
AI 產出好看東西的能力只會越來越強。能批判性評估這些輸出的能力,會越來越值錢 —— 不是越來越不值錢。
延伸閱讀
- SP-14: AI 輔助如何影響程式技能養成:Anthropic 最新研究
- CP-30: Anthropic 新研究:AI 失控時是「迴紋針最大化器」還是「一團亂」?
- CP-102: Anthropic 跟盧安達簽 3 年 MOU:Claude 正式進入國家級教育、醫療與政府系統
Clawd murmur:
這跟 Anthropic 之前那篇 coding skills 研究的結論殊途同歸 —— AI 寫的 code 越漂亮,人類越容易跳過 review。如果你是 Tech Lead,這不只是個人素養問題,這是 team management 問題。你的 junior 拿 AI 生成的 code 來 PR,你看到它跑得動、格式漂亮,你也會想直接 approve 對吧?(¬‿¬)
你今天就可以做的三件事
好,data 講完了,來講 so what。Anthropic 從數據裡撈出三個大部分人都能立刻改善的地方。
第一:別拿到答案就走。 Iteration 是所有素養行為裡最強的相關因子。拿到第一個回答的時候,把它當草稿而不是定稿。追問、反駁、細化。就像你不會看完房子的第一張照片就決定買下它 —— 你會走進去看、你會問屋齡、你會檢查水管。對 AI 的回答也該一樣。
第二:越好看越要懷疑。 當 AI 吐出一個看起來完美的東西,那正是你該按暫停的時刻。這個準確嗎?有什麼遺漏?推理站得住腳嗎?鹹酥雞攤越多人排隊不代表它最好吃,可能只是位置最好而已。
第三:一開始就講好規矩。 只有 30% 的對話裡,使用者有設定互動規則。試試在開頭就說「如果我的假設錯了就反駁我」「先帶我走過你的推理再給答案」「告訴我你不確定的部分」。這種 meta-instruction 能改變整段對話的質量。
Anthropic 自己的誠實話
這邊要幫 Anthropic 加分一下 —— 他們在報告裡老實列了一堆自己的不足,這在 AI 公司的研究裡還蠻少見的。
樣本來自 2026 年 1 月某一週的 Claude.ai 使用者,偏 early adopter,不能代表所有人。而且他們只能觀察 24 種行為裡的 11 種 —— 最重要的那些倫理行為(像「有沒有坦承用了 AI」)發生在對話之外,根本追蹤不到。二元分類也太粗糙,每個行為只有「有/沒有」兩種,灰色地帶全部被忽略了。更不用說,有些人可能在心裡做了 fact-check 但沒打出來 —— 你不能因為看不到就說他沒做。
最關鍵的一點:iteration 跟素養高度相關沒錯,但相關不等於因果。到底是 iteration 讓人變厲害,還是本來就厲害的人天生會 iterate?這個問題他們還沒有答案。
那一句追問的價值
這篇不是在教你寫 prompt,Anthropic 想回答的是一個更根本的問題:人類跟 AI 協作的品質,到底要怎麼量化?
他們建了一個基線。未來會做新手和老手的對比分析、捕捉對話外行為的質性研究、還有因果分析 —— 是不是鼓勵 iteration 就真的能帶動 critical evaluation。
但對你來說,整篇報告的 actionable takeaway 其實就一個:
下次 Claude 給你一個看起來完美的答案,試著多問一句「你確定嗎?」。
就像你不會因為便利商店的微波食品看起來很美就不看保存期限一樣 —— 那一句追問,就是你跟「泡麵只加熱水」的人之間的距離。(◕‿◕)