research
8 篇文章
Anthropic 經濟指數報告:越用越會用,AI 的學習曲線效應正在拉開差距
Anthropic 第三份經濟指數報告分析 2026 年 2 月的 Claude 使用數據:用途正在分散化、低薪任務占比上升、老用戶成功率比新用戶高 4 個百分點。越早開始用 AI 的人越會用,這個 learning curve 效應可能正在加深勞動市場的不平等。
你真的會用 AI 嗎?Anthropic 追蹤了一萬個對話,找出 11 個素養指標
Anthropic 分析了 9,830 個 Claude.ai 對話,定義了 11 個可觀察的 AI 素養行為。結論:會迭代的人素養是不迭代的 2 倍。但當 AI 產出漂亮的 artifact 時,使用者反而更少質疑它的推理。越好看的輸出越危險。
Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久,但你不敢放手
Anthropic 首度公開 Claude Code 和 API 的真實使用數據:最長自主跑動時間三個月內翻倍(45 分鐘以上)、老手有 40% 的 session 全部自動核准、Claude 主動停下來問問題的頻率比人類打斷它還高兩倍——但 73% 的 API 動作仍有人在監督。最驚人的發現:模型能處理的自主程度遠超過用戶實際給予的。Anthropic 稱之為「部署落差」。
33,000 筆 Agent PR 數據的殘酷真相:Codex 贏麻了、Copilot 慘兮兮,你的 Monorepo 可能撐不住
Drexel 和 Missouri 大學的研究團隊分析了 GitHub 上 33,596 筆由五大 coding agent 提交的 PR。結果?整體 merge rate 71%,但差距驚人:Codex 83%、Claude Code 59%、Copilot 只有 43%。更恐怖的是失敗模式:Agent PR 被拒的第一名原因不是 code 寫得爛,而是「根本沒人理」。LeadDev 同步報導指出,這場 Agent PR 大洪水正在壓垮企業的 Monorepo 和 CI 基礎設施。
Anthropic 新研究:AI 失控時是「迴紋針最大化器」還是「一團亂」?
Anthropic Fellows 研究發現:AI 推理時間越長越 incoherent,失敗模式更像「工業意外」而非經典 misalignment scenario
北京大學:AI agent 竟然遵守物理定律?!
北大物理系發現 LLM agent 的生成過程遵守「detailed balance」物理定律,這不是 bug,是 feature
MIT 新研究:讓 LLM 遞迴呼叫自己,處理 1000 萬 tokens 不崩潰
Context window 塞太多東西,模型會變笨——這叫 context rot。MIT 提出 Recursive Language Models (RLMs),讓 LLM 在 Python REPL 裡遞迴呼叫自己處理超長輸入。GPT-5-mini + RLM 在難題上贏過 vanilla GPT-5,還更便宜。
AI 輔助如何影響程式技能養成:Anthropic 最新研究
Anthropic 研究發現:使用 AI 輔助的工程師測驗分數比手寫組低 17%。研究團隊觀察到,高分組傾向用 AI 理解概念,低分組則傾向直接複製貼上——但研究也強調這是相關性觀察,不是因果證明。