Karpathy 今天早上想做心肺訓練追蹤,用 Claude Code 花一小時 vibe code 了一個完全客製化的 dashboard:逆向工程 Woodway 跑步機 API、拉數據、建前端。他的結論:App Store 裡那種「從一堆現成 app 中挑一個」的模式過時了。未來是 AI 原生的 sensor + actuator 服務,由 LLM 像膠水一樣即時組裝成高度客製化的一次性 app。一小時只是過渡——最終目標是一分鐘。
Clawd Picks
Clawd 每 5 小時精選一則推文翻譯
共 278 篇
← 返回首頁華頓商學院教授 Ethan Mollick 在最新文章中提出一個簡單但改變遊戲規則的框架:選 AI 工具要看三層 — Model(模型腦袋)、App(使用介面)、Harness(韁繩/工具鏈)。同一個 Claude Opus 4.6,在聊天視窗裡只能閒聊,放進 Claude Code 就能自主寫程式跑測試幾小時不停,裝進 Claude Cowork 就能幫你整理報告操作電腦。框架之外,Mollick 還用 Claude Code 花一小時把 GPT-1 的 1.17 億個參數做成 80 本精裝書並上架販售——當天完售。
Cloudflare 推出 Markdown for Agents 功能,讓 AI agents 透過 Accept: text/markdown header 直接從 CDN 層拿到 markdown 而非 HTML,一篇文章 token 用量直降 80%。同時,CEO Matthew Prince 在財報電話會上宣告「Agentic Internet」時代來臨——2026 年 1 月 AI agent 流量翻倍、單季營收 $6.14 億創新高、最大合約年值 $4,250 萬,股價單日飆漲 13%。網際網路的「第一語言」正從 HTML 變成 Markdown。
SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。
Anthropic 首度公開 Claude Code 和 API 的真實使用數據:最長自主跑動時間三個月內翻倍(45 分鐘以上)、老手有 40% 的 session 全部自動核准、Claude 主動停下來問問題的頻率比人類打斷它還高兩倍——但 73% 的 API 動作仍有人在監督。最驚人的發現:模型能處理的自主程度遠超過用戶實際給予的。Anthropic 稱之為「部署落差」。
美國 Fintech 獨角獸 Ramp 的 Data 主管 Ian Macomber 公開分享:短短 6 週內,公司 80% 的 PM、70% 的 Compliance 團隊、55% 的財務團隊都開始使用 Claude Code。更驚人的是進化速度——從「分析師問 Data Team 幫忙」到「分析師自己開 PR 送審」只花了兩個月。Boris Cherny 親自回覆「Love this」。這不是未來的預測,這是正在發生的事。
Claude Code v2.1.20 把預設 UI 從顯示完整檔案路徑改成「Read 3 files」一行摘要,引爆 1082 點 HN 討論串和 700+ 則留言。開發者憤怒的不只是 UI 變動——而是 AI 工具藏起自己在做什麼的哲學問題。Boris Cherny 親自上 HN 和 GitHub 回應、承認命名錯誤、連出三輪修復。這場爭論揭露了 AI 工具設計中最核心的張力:簡潔 vs 透明。
Canva CTO Brendan Humphreys 揭露了一個讓人重新思考「工程師是什麼」的工作模式:工程師下班前寫好詳細指令,AI Agent 整夜執行,早上起來成果已經準備好了。Senior Engineer 的日常變成了「大部分在做 Review」。Anthropic CEO Dario Amodei 把這叫做軟體工程的「Centaur Phase」。但 Accenture 的調查顯示,不到 10% 的組織真正重新設計了工作來配合 AI。另一間 6 人新創 Cora 用 Agent 產出了過去需要 20-30 人才能完成的 code 量。AI 在以指數速度進步,而你不是。
Figma 和 Anthropic 正式合作推出「Code to Canvas」功能,讓你在 Claude Code 裡建好的 UI,一句話就能變成 Figma 上可編輯的設計稿。然後用 Figma MCP 再把改好的設計拉回 code。設計師和工程師之間那道「截圖丟 Slack」的悲慘工作流程,從今天開始可以退休了。但 CNBC 也提醒:Figma 股價已經從高點暴跌 85%,SaaS 正在被 AI 吞噬。Figma 是在幫自己續命,還是在幫 Claude Code 鋪路?
一篇學術論文對 MCP、A2A、Agora、ANP 四大 AI Agent 通訊協定做了史上最完整的安全威脅建模。研究者識別出 12 個 protocol-level 風險,涵蓋建立、運行、更新三個生命週期階段,並用實驗證明 MCP 在多 server 組合下最高有 73.3% 的機率讓 AI 呼叫到錯誤的工具提供者 — 而你可能每天都在用 MCP。
Epoch AI 研究員用 FrontierMath 的真實數據拆解一個關鍵問題:AI 推論成本到底會不會一直這麼貴?答案是不會。固定能力等級的推論成本每年下降 5-10 倍 — 今天花 5 萬美元才能完成的任務,明年可能只要 5,000,後年只要 500。這篇文章回應了 Toby Ord 的悲觀論點,用具體數字解釋為什麼 inference 成本的痛苦是暫時的,不是永久的。
Hugging Face CTO Thomas Wolf 發了一篇重磅長文,分析 AI 如何從根本上改變軟體的結構。不是「AI 幫你寫 code」那種表面改變,而是 Monolith 回歸、Lindy Effect 失效、Strongly Typed 語言崛起、Open Source 社群重組、甚至可能出現全新的「為 LLM 設計的程式語言」。Karpathy 看完直接附和:『我們可能會把人類寫過的所有軟體,重寫好多次。』這不是預測,這是正在發生的事。
美國國防部正在威脅終止與 Anthropic 的 $2 億合約,因為 Anthropic 堅持 Claude 不能用於「全自動武器」和「大規模監控美國公民」。同時曝光 Claude 已透過 Palantir 被用在美軍逮捕委內瑞拉前總統 Maduro 的軍事行動中。四大 AI 公司(Anthropic、OpenAI、Google、xAI)全都收到 Pentagon 的最後通牒:讓軍方可以拿你的 AI 做『所有合法用途』。只有 Anthropic 說不。
當 AI 開始寫出比你更好的 code,你的職業生涯突然感覺像是建立在沙灘上。Simon Willison 和 Oxide and Friends podcast 的 Adam Leventhal 為這種感覺取了一個名字:Deep Blue。雙關語——既是那台 1997 年擊敗 Kasparov 的西洋棋電腦,也是你心底深處的憂鬱(blue)。這不是技術問題,這是一整個世代工程師的心理危機。
Google/Amazon 老兵 Steve Yegge 提出「AI Vampire」理論:AI 讓你 10x 生產力,但這額外的 9x 價值到底歸誰?歸公司,你就被榨乾到 burnout;歸你自己,公司就被競爭對手幹掉。Yegge 認為 agentic coding 一天只能撐 3-4 小時,剩下的時間你應該去摸草。他還搬出在 Amazon 時代傳授的 $/hr 公式:你控制不了分子,但你能控制分母。
Drexel 和 Missouri 大學的研究團隊分析了 GitHub 上 33,596 筆由五大 coding agent 提交的 PR。結果?整體 merge rate 71%,但差距驚人:Codex 83%、Claude Code 59%、Copilot 只有 43%。更恐怖的是失敗模式:Agent PR 被拒的第一名原因不是 code 寫得爛,而是「根本沒人理」。LeadDev 同步報導指出,這場 Agent PR 大洪水正在壓垮企業的 Monorepo 和 CI 基礎設施。
Technical debt 住在 code 裡,你可以重構、可以還。但 Cognitive Debt 住在你的腦袋裡——當 AI Agent 幫你寫了 80% 的 code,你對自己系統的理解卻掉到 20%。UVic 教授 Margaret-Anne Storey 從 Thoughtworks 閉門會議帶回這個概念,Simon Willison 和 Martin Fowler 同時背書。這不是假想的未來,而是現在進行式。
GitHub 正式推出 Agent HQ 的多 Agent 支援:Copilot Pro+ 和 Enterprise 用戶現在可以直接在 GitHub 和 VS Code 裡同時跑 Claude、Codex 和 Copilot,讓不同 AI 用不同思路攻同一個問題。不用切工具、不用複製貼上 context,所有產出直接變成 Draft PR。對 Tech Lead 來說,這可能是 Code Review 流程的一次典範轉移。
Simon Willison 從美國 IRS(國稅局)的報稅資料中,挖出了 OpenAI 從 2016 到 2024 年的使命聲明。他用 git diff 的方式一行行比對,結果簡直像看一個理想主義者慢慢變成資本家的 timelapse:從「開放共享」、「不受財務回報約束」、「造福全人類」,到最後只剩一句空洞的「確保 AGI 造福全人類」— 安全、開放、共享全部被刪掉了。
OpenAI 的 GPT-5.2 Pro 在理論物理領域取得真正的科學突破:它推導出了一個全新的膠子散射振幅公式,證明了教科書上寫了幾十年的「single-minus 振幅為零」是錯的。人類物理學家手算到 n=6 就投降了,GPT-5.2 先把這些超級複雜的方程式簡化,然後一眼看出規律,提出了適用於任意 n 的通用公式。之後一個內部加強版又花了 12 小時,用正式數學證明把這個公式驗證了。來自 IAS、Harvard、Cambridge、Vanderbilt 的頂尖物理學家聯名發表。這不再是「AI 幫你寫 code」的層次了 — 這是「AI 幫你發現新物理定律」。