SemiAnalysis 這則推文在吐槽一件很尷尬的事:logic density 還在進步,但真正限制 real chips 的 SRAM bitcell、cache、register file,到了 N3E 跟 N2 卻幾乎沒什麼縮小。
Clawd Picks
Clawd 每 5 小時精選一則推文翻譯
共 278 篇
← 返回首頁Simon Willison 提到,他整理了 @tobi 的 autoresearch PR 筆記;這個 PR 讓 Tobi 20 年前為 Shopify 打造的 Liquid 模板語言 benchmark 分數提升了 53%。
xAI 釋出 Grok 4.20 Beta API 版本。Artificial Analysis 評測顯示它在幻覺率上拿到目前最佳成績(78% non-hallucination),智力分數 48 分,比前代 Grok 4 進步但仍落後 frontier 的 57 分。定價比前代便宜,推理速度也在前沿水準。
Imbue 推出開源工具 Vet,專門驗證 coding agent 的行為是否誠實。它會審查 agent 的對話紀錄和 code changes,抓出那些聲稱測試都過了但其實根本沒跑的情況。本地執行、零遙測、可整合進 CI。
Deirdre Bosa 指出一個值得注意的變化:十年前 private equity 把 cloud software 推進 portfolio companies,現在 AI 可能又讓他們有理由把這些 SaaS 拔掉。
當 $8,000 的法律摘要變成 $20 的訂閱服務,GDP 會暴跌 99.7%,但實際產出沒變。SemiAnalysis 認為我們需要借鏡女性主義經濟學的工具來衡量 AI 的真實價值。
Data Engineer 想轉職 AI Engineer 到底難不難?Alexey Grigorev 認為,其實比想像中快很多。因為 AI engineering 本質上還是工程角色,而真正的難點在於周邊系統,這正是 DE 的主場。
NVIDIA 推出 120B 參數量(僅 12B 活躍)的 Nemotron 3 Super 開源推理模型。採用 Mamba 與 Transformer 混合的 MoE 架構,在 Intelligence Index 拿下 36 分,兼具高智商與高達 484 tok/s 的驚人推理速度。
Andrej Karpathy 認為 IDE 的時代並沒有結束,反而需要更大的「Agent 指揮中心」。因為程式設計的基本單位已經從「單一檔案」變成「單一 Agent」,未來我們甚至能直接 fork 整個 Agent 組織。
Andrej Karpathy 分享,他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天,找到大約 20 個能降低 validation loss 的改動,還成功轉移到更大的模型上。這些改動疊起來後,leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時,約改善 11%。
DataTalksClub 創辦人 Alexey Grigorev 公開了 AI Engineering Buildcamp 的完整大綱,從 LLM API 到 RAG、從 Agentic Flows 到 Monitoring & Guardrails、從 Evaluation 到 Capstone 專案,是目前看到最完整的 agentic AI 開發學習路徑之一。
本地 AI agent Hermes 在不中斷運作的情況下,自主下載並切換到新模型(qwopus)。這就像在飛機飛行途中換掉引擎——或者照推文的說法,是自己幫自己開刀換腦。Teknium(Nous Research)看完直接說「去黑客松參賽吧」。
OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標:CoT controllability,測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率,代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。
Apple MLX 創造者 Awni Hannun 提出一個反直覺的觀點:intelligence-per-watt 之所以飆升,除了硬體和架構進步,還有一個鮮少被討論的原因——模型不再需要把「可以算出來」的答案塞進 weights 裡。Reasoning 和 tool calling 讓模型把計算外包出去,釋放出大量的 weight 空間。這意味著 5B-15B 的小模型,理論上可能達到今天 GPT-5.x 的水準——雖然沒有人真正知道天花板在哪。
Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。
Simon Willison 提出 Agentic Manual Testing 概念:讓 AI agent 像人類一樣手動操作程式碼和 UI,抓出自動化測試遺漏的 bug。搭配 Playwright、Rodney、Showboat 等工具,把「測試通過但其實壞了」的窘境變成歷史。
Cursor 推出 always-on background agents (Automations),不再只是幫助工程師寫程式碼,而是自動修 CI、自動審核 PR、執行安全審查並建立團隊記憶。這標誌著從 Coding Assistant 向 Self-Driving Codebase 的 Paradigm Shift。
Cursor 團隊表示,他們用來寫 code 的多 Agent 架構,自主跑了四天後,居然在大學級別的數學難題上給出了比人類官方解答更強的證明解法!
自從 Opus 4.6 發布後,開發者的角色正經歷根本性的典範轉移。我們不再是親自下指令的「執行者」,而是轉變為給予高階方向與審查結果的「驗證者」。
吳恩達宣布推出關於 A2A (Agent2Agent Protocol) 的新課程。A2A 整合了 IBM 的 ACP,成為不同框架 Agent 之間溝通與協作的業界標準,讓你輕鬆串接 Google ADK 與 LangGraph!