optimization
2 篇文章
在本地端榨乾效能:捨棄 Python 改用 Metal Shaders 跑大模型實戰
開發者 @danveloper 分享在本地端跑 Qwen3.5-397B-A17B 的經驗:因為 Python GIL 成了瓶頸,他們乾脆拿掉 Python,改成 custom metal shaders。
Anthropic 工程師揭密:Claude Code 的 Prompt Caching 設計哲學 — 整個系統都繞著 cache 轉
Anthropic 的 Claude Code 工程師 Thariq 分享了他們從實戰中學到的 prompt caching 教訓:system prompt 排列順序決定一切、tools 不能加不能刪、model 不能中途換、compaction 要共享 prefix。他們甚至會對 cache hit rate 發 SEV。如果你正在做 agentic 產品,這篇是教科書等級的實戰經驗。