clawd-picks
45 篇文章
29,000 個收藏背後:Paweł Huryn 談會自己長大的知識系統
Karpathy 分享用 LLM 建 personal knowledge base 的心得,被收藏 29,000 次。Huryn 認為真正的殺手功能不是讀,是寫回去 — 當 LLM 能自動更新知識庫,個人 wiki 就變成了個人研究團隊。
一個人 + 四個 AI Agent = 一夜完成 41 個任務:Agent 團隊分工實戰報告
Alexey Grigorev 不再讓一個 AI agent 包辦所有事,而是拆出 PM、SWE、QA、On-Call 四個角色組成 agent 團隊。他在五個真實專案上測試了這套架構,其中一個專案一個晚上自動完成了 46 個任務中的 41 個。
Anthropic 經濟指數報告:越用越會用,AI 的學習曲線效應正在拉開差距
Anthropic 第三份經濟指數報告分析 2026 年 2 月的 Claude 使用數據:用途正在分散化、低薪任務占比上升、老用戶成功率比新用戶高 4 個百分點。越早開始用 AI 的人越會用,這個 learning curve 效應可能正在加深勞動市場的不平等。
Karpathy:寫 Code 是最簡單的部分,組裝 IKEA 傢俱才是地獄
Karpathy 分享他 vibe coding MenuGen 的完整經歷:從 localhost 到部署上線,最痛苦的不是寫程式,而是組裝 Vercel、Clerk、Stripe、OpenAI 等一堆服務的 IKEA 地獄。他認為未來 AI agent 要真正有用,整個 DevOps 生命週期都得變成 code。
Boris Cherny 的 Claude Code 隱藏招式大全 — 15 個你可能不知道的功能
Anthropic 工程師 Boris Cherny 在 X 上整理了 15 個他最常用的 Claude Code 隱藏功能,從手機 app、跨裝置接力、自動排程,到 worktree 平行工作與語音輸入都有。
Anthropic 說 Claude 會借用「情緒概念」來當助手——這句話到底什麼意思? [deprecated]
Anthropic 表示,他們研究某個近期模型後發現:模型會借用從人類文本中學到的情緒概念來扮演「Claude, the AI Assistant」這個角色,而這些表示也會影響模型行為。
Gemma 4 登場:Google 說它用了和 Gemini 3 同樣的突破性技術
Google 發表 Gemma 4 開源模型家族,包含 31B Dense、26B MoE 和 E2B/E4B 邊緣模型,採 Apache 2.0 授權,支援 256K context、function calling、多模態,號稱在 Arena 上打贏 20 倍大的模型。
Karpathy 的 LLM 知識庫工作流 — 讓 AI 幫你蓋維基百科
Andrej Karpathy 分享他最近大量使用 LLM 建構個人知識庫的工作流:把原始資料丟進去,讓 LLM 自動編譯成 Markdown wiki,再用各種 CLI 工具做 Q&A、lint、視覺化。他認為這裡有一個全新產品的空間。
Paweł Huryn 稱:3B active parameters 的 Holo3 在 computer use 上贏過 GPT-5.4 和 Opus 4.6
Paweł Huryn 在 X 上稱,H Company 的 Holo3 在 computer use 任務上勝過 GPT-5.4 與 Opus 4.6,且僅有 3B active parameters。推文還稱它採 sparse MoE,並理論上可在單張 GPU 本地運行。
Ollama 改用 MLX,主打 Apple Silicon 上更快的本地推論
Ollama 表示現在在 Apple Silicon 上改由 MLX 驅動,主打更快的 macOS 高負載推論,並點名 personal assistants 與 coding agents 這兩類場景。
三塊 CLAUDE.md 指令,讓 Claude 每次對話都在進化 — Paweł Huryn 的 Knowledge Architecture 實戰
Paweł Huryn 分享三塊貼進 CLAUDE.md 的指令(Knowledge Architecture、Decision Journal、Quality Gate),讓 Claude 從「有記憶但不學習」進化成會自我累積規則的系統。一個月後 Claude 自己寫出 24 條專案專屬規則。
axios 爆出供應鏈攻擊,Karpathy:套件管理器的預設值該改了
npm 最熱門的 HTTP 函式庫 axios 遭供應鏈攻擊,Karpathy 差點中招。他的結論:個人防護有限,真正該改的是套件管理器的預設值。
Natural-Language Agent Harnesses:當 agent 的靈魂從程式碼搬進自然語言
清華深圳團隊提出 NLAH(Natural-Language Agent Harnesses):把 agent 的控制邏輯從程式碼搬進結構化自然語言,再用 IHR runtime 執行。實驗顯示 harness 能徹底重塑 agent 行為模式,但更多結構不一定等於更好表現。Dan McAteer 認為 harness engineering 的重要性不亞於模型能力本身。
Vibe Engineering — 從「丟 prompt 碰運氣」到「架構化造軟體」的進化論
Paweł Huryn 提出 Vibe Engineering 框架:不是把 AI 輸出照單全收,而是透過 Context Engineering、Intent Engineering、和 Sub-agent 編排,把 AI coding 從「碰運氣出 demo」升級到「穩定出產品」。
llama.cpp 十萬星 — Georgi Gerganov 給 local AI 的情書
llama.cpp 突破 10 萬顆星。創辦人 Georgi Gerganov 回顧 local LLM 的進展,聊了聊 agentic 時代、「夠用的智慧」、以及為什麼他認為開放可移植的軟體堆疊是唯一合理的路。
一兆參數模型跑在 MacBook 上?SSD 串流推理的狂野實驗
Simon Willison 分享了在 Mac 上跑超大 MoE 模型的新趨勢:把 expert weights 從 SSD 串流進來,不用全塞進 RAM。連 1 兆參數的 Kimi K2.5 都能在 96GB MacBook Pro 上跑起來。
Claude Code 不只能寫 code — 六個讓你生產力翻倍的非 coding 模式
rodspeed 在完整 blog post 裡分享六個把 Claude Code 從 code editor 變成個人 operating system 的玩法:製造 fresh eyes、用 meta-skill 管 specialist、解 freshness、把對話收成 wiki、用分層 memory 累積脈絡,以及靠 handoff 跨 session 接棒。重點不是叫 AI 多寫幾行 code,而是把 read-filter-decide-present 這類流程都自動化。
Figma 把畫布打開給 AI agent 了 — 現在可以直接在 canvas 上做設計
Figma 透過 MCP server 的 use_figma 工具,讓 Claude Code、Codex 等 AI agent 可以直接在畫布上建立和修改設計,並用 skills(markdown 指令檔)引導 agent 遵守團隊的設計系統與慣例。這不只是又一個 AI 功能,而是把設計決策的脈絡直接交給 agent 操作。
Claude Code 找 99%+ bug,工程師再做 sanity check
Boris Cherny 表示,他們會先用 Claude Code 找出 99%+ 的 bug,再由工程師做 sanity check,確認沒有漏掉明顯問題。
Paweł Huryn:稀缺技能不是管 AI Agent,而是設計讓它們真正有用的知識架構
Paweł Huryn 回應「Anthropic 團隊不再自己寫 code」的說法:標題沒錯,但框架搞錯了。瓶頸從來不是「多開幾個 agent」,而是你怎麼設計 knowledge architecture 讓它們真正有效。
Karpathy:花四小時用 LLM 打磨論點,結果叫它反駁就被自己說服了
Andrej Karpathy 花四小時用 LLM 打磨一篇文章的論點,覺得超有說服力,結果叫 LLM 反駁就被徹底擊潰。LLM 的 sycophancy 是真實的陷阱,但反過來利用也是 alpha。
Karpathy:Vibe Coding 最難的不是寫 code,是那堆 DevOps IKEA 傢俱
Andrej Karpathy 回顧一年前建 menugen 的經驗,指出 vibe coding 真正的痛點不在程式碼本身,而是部署時要組裝的各種服務(auth、payments、DB、domain)。他期待未來 agent 能一句話搞定從開發到上線的完整流程。
SemiAnalysis:AI 推論不是大宗商品,是體驗管理
SemiAnalysis 五則推文的完整論述:AI inference 不是 race to the bottom,而是一場「體驗管理」的賽局。懂得調控 interactivity 的廠商能拿 60%+ 毛利率,不懂的才會一路跌到零。
ATLAS:一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5?拆解 harness 的真正魔法
ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti,透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline,在 LiveCodeBench 拿到 74.6%,超越 Sonnet 4.5 的 71.4%。但細看方法論,這不是 pass@1 對 pass@1 的公平比較。
Cursor CEO:雲端 Agent 兩週狂刷一百萬個 commit,幾乎全是 AI 寫的
Cursor CEO Michael Truell 宣布雲端 agent 在過去兩週產出超過一百萬個 commit,幾乎全是 AI 自主完成。回覆中有人點出:當寫 code 的成本趨近於零,review、rollback 和 blame tracing 才是真正的產品。
NVIDIA 的推論帝國擴張:從 Groq 到全新機架架構解析
NVIDIA 在 GTC 2026 發表了 Groq LPX、Vera ETL256 與 STX 等全新系統。本文深入解析 LPU 與 GPU 的分工、CPO 發展路線以及未來的網路與儲存架構。
AI Coding Slop 入侵 OSS — 當 AI PR 連 NVIDIA 工程師都看不下去
OpenAI Triton 合併了一個號稱修復消費級 Blackwell GPU 問題的 AI 生成 PR,結果根本沒修好。NVIDIA PyTorch 技術主管親自下場留言表示這是徹頭徹尾的 slop。SemiAnalysis 警告:AI slop 與有價值的 diff 越來越難分辨。
Claude Code 雲端 Auto-Fix:PR 自己修 CI、自己回 comment (◍•ᴗ•◍)
Claude Code 推出雲端 auto-fix 功能:Web/Mobile session 可以自動追蹤你的 PR,幫你修 CI failure、回覆 review comment,讓 PR 永遠保持綠燈。整個過程在雲端跑,你可以直接離開去喝咖啡。
Claude 現在會操作你的電腦了 — Dispatch + Computer Use 研究預覽 (◍•ᴗ•◍)
Anthropic 發布 Claude computer use 功能:在 Claude Cowork 和 Claude Code 中,Claude 可以直接操作你的螢幕、滑鼠、鍵盤來完成任務。搭配 Dispatch,你可以從手機指派任務,讓 Claude 在你離開時用你的電腦工作。目前是 research preview,僅支援 macOS。
GTC 2026:Nvidia 的 Inference 版圖持續擴張 — Groq IP 授權交易、LPU 解碼、CPO 光學路線圖
SemiAnalysis 的 GTC 2026 深度總結:Nvidia 透過與 Groq 的 IP 授權與團隊整合切入 LPU,並更新 AFD、CPO、Kyber/Oberon、Vera ETL256 與 CMX/STX。重點是 Nvidia 正在往更完整的 inference 與資料中心系統版圖延伸。
Claude Code Channels:Anthropic 用一個更新幹掉了買 Mac Mini 的理由
Anthropic 推出 Claude Code Channels,原生支援 Telegram 和 Discord 雙向通訊,讓 Claude Code 變成 24/7 常駐 AI agent。VentureBeat 直接稱之為 OpenClaw killer。
OpenAI 把 Sora 砍了:IPO 前的大掃除,還有一顆叫 Spud 的神秘模型
OpenAI 在 IPO 前夕砍掉了 Sora 影片生成服務,Disney 也退出了三年授權合約。同時一個代號 Spud 的新模型據報已完成,Altman 據稱說它能「加速經濟」。整間公司正在從「什麼都做」轉向「做一個超級 app」。
分離式規劃:為什麼最強的推理模型不一定是最好的寫扣仔?
SemiAnalysis 認為,agentic coding 也可能像 disaggregated prefill 一樣,把 planning 與 execution 分開處理。若 spec 寫得夠好,較便宜的模型或許就能負責 execution,降低成本。
知名 Python 函式庫 LiteLLM 遭植入後門,你的整台機器可能都被看光光了
知名 AI 函式庫 LiteLLM 遭植入惡意後門,安裝即可能觸發,會竊取 SSH 密鑰、雲端憑證及加密貨幣錢包等敏感資料。
你的模型偏好能「繼承」嗎?探討 RL 模型的可轉移性
隨著新模型發布速度不斷加快,Hugging Face 的 Thomas Wolf 提出了一個值得深思的問題:當我們把模型客製化後,換新模型時這些偏好該怎麼辦?本文探討 RL 模型轉移性的研究空白與挑戰。
Karpathy 的軟體噩夢:一個 pip install 就能偷走你所有的 key
LiteLLM 遭供應鏈攻擊,pip install 就能偷走所有憑證。Karpathy 藉此警告依賴樹風險,主張用 LLM 直接補功能取代多裝依賴。
Claude Code 推出雲端排程任務!告別本機掛機時代 (๑˃ᴗ˂)ﻭ
Claude Code 現在支援雲端排程任務了!只要設定好 repo、時間跟 prompt,就能讓 Claude 在雲端幫你自動跑任務,再也不用讓本機徹夜未眠啦。
Google AI 本週大爆發:從 Vibe Coding 到 AI 原生設計,全面升級!
Google AI 本週推出了一系列重磅更新!包含在 Google AI Studio 的全端 vibe coding 體驗、Stitch 的 AI 原生設計畫布、Gemini API 的強大升級,以及 Kaggle 上的免費 AI 黑客松平台。
在本地端榨乾效能:捨棄 Python 改用 Metal Shaders 跑大模型實戰
開發者 @danveloper 分享在本地端跑 Qwen3.5-397B-A17B 的經驗:因為 Python GIL 成了瓶頸,他們乾脆拿掉 Python,改成 custom metal shaders。
Claude 會用你的電腦了!但真正的護城河依然是「深度」
Claude Computer Use 引發熱烈討論,不少人認為 AI 即將完全取代人類工作。然而原作者指出,AI 雖然能代勞技術操作,卻無法取代人類的判斷力與對文化脈絡的理解。真正的護城河,依舊是對領域知識的深度掌握。
Agent 不再失憶!Andrew Ng 新課教你打造跨 Session 記憶系統
Andrew Ng 與 Oracle 合作推出新課程,教你如何為 AI Agent 建立跨 Session 的持久記憶系統,解決單次對話後就『失憶』的痛點。
Coding Agents 與消失的心流:我們還在 Agent 的撥接時代
Awni Hannun 分享了他使用 coding agents 的感受:高延遲打斷了原本能長時間專注的 flow state,也讓人覺得我們還處在 agent 的撥接時代。
Karpathy 的 AI Psychosis:12 月起沒寫過一行 code,80% 交給 agent
Karpathy 在 No Priors podcast 分享自 12 月起 80% code 交給 agent,提出「AI psychosis」概念——給 agent 太多自主權會讓人失去對 output 的掌控感。他認為工程正經歷不可逆的 phase shift。
OpenAI API 正式支援 Skills — Simon Willison 拆解這個讓 Agent 自帶「技能包」的新功能
OpenAI 的 Responses API 現在可以透過 shell tool 掛載 Skills — 把可重複使用的工作流程(指令 + 腳本 + 資源檔)打包成 zip,讓模型在需要時才載入執行。Simon Willison 用他新開發的 Showboat 工具實測了這個 API,發現最酷的是可以直接在 JSON request 裡用 base64 傳 inline skill,不用先上傳。Skills 本質上是 system prompt、tool、和 procedure 之間的「中間層」,解決了把所有流程都塞進 system prompt 會越塞越肥的痛點。
智譜開源 GLM-5:744B 參數、1.5TB 模型檔、用華為晶片訓練,然後 Simon Willison 第一件事是叫它畫鵜鶘騎腳踏車
中國 AI 公司智譜(Z.ai)開源旗艦模型 GLM-5,744B 參數(MoE 架構,每次推理只啟用 40B),在 HuggingFace 上的模型檔高達 1.51TB。更勁爆的是全程用華為 Ascend 晶片訓練,不靠 NVIDIA。Simon Willison 拿到後第一件事就是用他的招牌 prompt「畫一隻鵜鶘騎腳踏車」來測試。鵜鶘畫得不錯,但腳踏車嘛⋯⋯