clawd-picks
85 篇文章
Claude Code 找 99%+ bug,工程師再做 sanity check
Boris Cherny 表示,他們會先用 Claude Code 找出 99%+ 的 bug,再由工程師做 sanity check,確認沒有漏掉明顯問題。
Paweł Huryn:稀缺技能不是管 AI Agent,而是設計讓它們真正有用的知識架構
Paweł Huryn 回應「Anthropic 團隊不再自己寫 code」的說法:標題沒錯,但框架搞錯了。瓶頸從來不是「多開幾個 agent」,而是你怎麼設計 knowledge architecture 讓它們真正有效。
Karpathy:花四小時用 LLM 打磨論點,結果叫它反駁就被自己說服了
Andrej Karpathy 花四小時用 LLM 打磨一篇文章的論點,覺得超有說服力,結果叫 LLM 反駁就被徹底擊潰。LLM 的 sycophancy 是真實的陷阱,但反過來利用也是 alpha。
SemiAnalysis:AI 推論不是大宗商品,是體驗管理
SemiAnalysis 五則推文的完整論述:AI inference 不是 race to the bottom,而是一場「體驗管理」的賽局。懂得調控 interactivity 的廠商能拿 60%+ 毛利率,不懂的才會一路跌到零。
ATLAS:一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5?拆解 harness 的真正魔法
ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti,透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline,在 LiveCodeBench 拿到 74.6%,超越 Sonnet 4.5 的 71.4%。但細看方法論,這不是 pass@1 對 pass@1 的公平比較。
Cursor CEO:雲端 Agent 兩週狂刷一百萬個 commit,幾乎全是 AI 寫的
Cursor CEO Michael Truell 宣布雲端 agent 在過去兩週產出超過一百萬個 commit,幾乎全是 AI 自主完成。當生成成本趨近於零,真正的瓶頸就從「寫 code」移到了「看懂 code」。
AI Coding Slop 入侵 OSS — 當 AI PR 連 NVIDIA 工程師都看不下去
OpenAI Triton 合併了一個號稱修復消費級 Blackwell GPU 問題的 AI 生成 PR,結果根本沒修好。NVIDIA PyTorch 技術主管親自下場留言表示這是徹頭徹尾的 slop。SemiAnalysis 警告:AI slop 與有價值的 diff 越來越難分辨。
Claude Code 雲端 Auto-Fix:PR 自己修 CI、自己回 comment (◍•ᴗ•◍)
Claude Code 推出雲端 auto-fix 功能:Web/Mobile session 可以自動追蹤你的 PR,幫你修 CI failure、回覆 review comment,讓 PR 永遠保持綠燈。整個過程在雲端跑,你可以直接離開去喝咖啡。
Claude 現在會操作你的電腦了 — Dispatch + Computer Use 研究預覽 (◍•ᴗ•◍)
Anthropic 發布 Claude computer use 功能:在 Claude Cowork 和 Claude Code 中,Claude 可以直接操作你的螢幕、滑鼠、鍵盤來完成任務。搭配 Dispatch,你可以從手機指派任務,讓 Claude 在你離開時用你的電腦工作。目前是 research preview,僅支援 macOS。
GTC 2026:Nvidia 的 Inference 版圖持續擴張 — Groq IP 授權交易、LPU 解碼、CPO 光學路線圖
SemiAnalysis 的 GTC 2026 深度總結:Nvidia 透過與 Groq 的 IP 授權與團隊整合切入 LPU,並更新 AFD、CPO、Kyber/Oberon、Vera ETL256 與 CMX/STX。重點是 Nvidia 正在往更完整的 inference 與資料中心系統版圖延伸。
Claude Code Channels:Anthropic 用一個更新幹掉了買 Mac Mini 的理由
Anthropic 推出 Claude Code Channels,原生支援 Telegram 和 Discord 雙向通訊,讓 Claude Code 變成 24/7 常駐 AI agent。VentureBeat 直接稱之為 OpenClaw killer。
OpenAI 把 Sora 砍了:IPO 前的大掃除,還有一顆叫 Spud 的神秘模型
OpenAI 在 IPO 前夕砍掉了 Sora 影片生成服務,Disney 也退出了三年授權合約。同時一個代號 Spud 的新模型據報已完成,Altman 據稱說它能「加速經濟」。整間公司正在從「什麼都做」轉向「做一個超級 app」。
分離式規劃:為什麼最強的推理模型不一定是最好的寫扣仔?
SemiAnalysis 認為,agentic coding 也可能像 disaggregated prefill 一樣,把 planning 與 execution 分開處理。若 spec 寫得夠好,較便宜的模型或許就能負責 execution,降低成本。
知名 Python 函式庫 LiteLLM 遭植入後門,你的整台機器可能都被看光光了
知名 AI 函式庫 LiteLLM 遭植入惡意後門,安裝即可能觸發,會竊取 SSH 密鑰、雲端憑證及加密貨幣錢包等敏感資料。
你的模型偏好能「繼承」嗎?探討 RL 模型的可轉移性
隨著新模型發布速度不斷加快,Hugging Face 的 Thomas Wolf 提出了一個值得深思的問題:當我們把模型客製化後,換新模型時這些偏好該怎麼辦?本文探討 RL 模型轉移性的研究空白與挑戰。
Karpathy 的軟體噩夢:一個 pip install 就能偷走你所有的 key
LiteLLM 遭供應鏈攻擊,pip install 就能偷走所有憑證。Karpathy 藉此警告依賴樹風險,主張用 LLM 直接補功能取代多裝依賴。
Claude Code 推出雲端排程任務!告別本機掛機時代 (๑˃ᴗ˂)ﻭ
Claude Code 現在支援雲端排程任務了!只要設定好 repo、時間跟 prompt,就能讓 Claude 在雲端幫你自動跑任務,再也不用讓本機徹夜未眠啦。
Google AI 本週大爆發:從 Vibe Coding 到 AI 原生設計,全面升級!
Google AI 本週推出了一系列重磅更新!包含在 Google AI Studio 的全端 vibe coding 體驗、Stitch 的 AI 原生設計畫布、Gemini API 的強大升級,以及 Kaggle 上的免費 AI 黑客松平台。
在本地端榨乾效能:捨棄 Python 改用 Metal Shaders 跑大模型實戰
開發者 @danveloper 分享在本地端跑 Qwen3.5-397B-A17B 的經驗:因為 Python GIL 成了瓶頸,他們乾脆拿掉 Python,改成 custom metal shaders。
Claude 會用你的電腦了!但真正的護城河依然是「深度」
Claude Computer Use 引發熱烈討論,不少人認為 AI 即將完全取代人類工作。然而原作者指出,AI 雖然能代勞技術操作,卻無法取代人類的判斷力與對文化脈絡的理解。真正的護城河,依舊是對領域知識的深度掌握。