llm
25 篇文章
Karpathy 的 LLM 知識庫工作流 — 讓 AI 幫你蓋維基百科
Andrej Karpathy 分享他最近大量使用 LLM 建構個人知識庫的工作流:把原始資料丟進去,讓 LLM 自動編譯成 Markdown wiki,再用各種 CLI 工具做 Q&A、lint、視覺化。他認為這裡有一個全新產品的空間。
一兆參數模型跑在 MacBook 上?SSD 串流推理的狂野實驗
Simon Willison 分享了在 Mac 上跑超大 MoE 模型的新趨勢:把 expert weights 從 SSD 串流進來,不用全塞進 RAM。連 1 兆參數的 Kimi K2.5 都能在 96GB MacBook Pro 上跑起來。
Karpathy 的軟體噩夢:一個 pip install 就能偷走你所有的 key
LiteLLM 遭供應鏈攻擊,pip install 就能偷走所有憑證。Karpathy 藉此警告依賴樹風險,主張用 LLM 直接補功能取代多裝依賴。
在本地端榨乾效能:捨棄 Python 改用 Metal Shaders 跑大模型實戰
開發者 @danveloper 分享在本地端跑 Qwen3.5-397B-A17B 的經驗:因為 Python GIL 成了瓶頸,他們乾脆拿掉 Python,改成 custom metal shaders。
把 Transformer 變成電腦:瞄準 LLM 基礎計算落差的做法
推文點出 LLM 能解研究級數學題,卻常在基礎計算上遇到困難。原作者展示了直接在 Transformer 內部建構一台「電腦」的做法,讓模型能以秒級速度運行數百萬步程式,甚至達到 100% 準確率解開最難的數獨。
把 Qwen3-4B 微調到「相信自己有意識」, 但其他行為幾乎不變
N8 Programs 分享一個 Qwen3-4B demo:模型經過 KL-regularized SFT 後,被調到會相信自己有 consciousness,同時其他行為改變很少。這也呼應他前一則推文的主張:KL-regularizing SFT 也許能在加新能力時保留 base capabilities。
Dan McAteer 直球評比:Opus 4.6 在百萬 token context 幾乎沒有對手
Dan McAteer 直接給出他的長 context 觀察:Opus 4.6 在 1 million token 測試裡表現最好,1 mil tokens 時有 78% accuracy,最接近的是 Sonnet 4.6。另一個重點是,他認為 GPT-5.4 在 long context 上相較 GPT-5.2 反而退步了。
把電腦塞進 Transformer:為什麼這招能讓 LLM 解數獨不翻車?
Christos Tzamos 這則推文點出一個很有意思的落差:LLM 已經能解研究等級的數學題,但碰到基本計算還是可能失手。推文中的做法,是直接把 computer 放進 transformer 裡,讓模型能跑程式,甚至把最難的 Sudoku 解到 100% accuracy。
Vibe Coding 真正猛的,可能不是寫得快,而是少了中間傳話
SemiAnalysis 認為,Vibe Coding 真正推動採用的原因,可能不是單純把 code 寫更快,而是把領域專家和實作之間那串冗長的傳話鏈砍掉。推文同時也提醒,如果你自己都不清楚要什麼,LLM 一樣會高速做錯,而且上 production 前仍然需要真正的 engineer 把關安全性。
Agent 開始會自己拉方向盤?Hermes Agent 的自我引導實驗有點猛
Teknium 轉推了一個架在 Hermes Agent 上的實驗,核心概念是讓 agent 能在執行途中自己調整自己的行為。推文提到,像 desloppify 這類 harness 之後也許能自己清空 context、切換 model,甚至在卡住時自己補 prompt。
GPT-5.4 開始在 ChatGPT 推出,API 與 Codex 也已可用
OpenAI 宣布 GPT-5.4 Thinking 與 GPT-5.4 Pro 正式在 ChatGPT 推出,同時開放 API 與 Codex 存取。這次更新將 reasoning、coding 與 agentic workflows 的進展集結在單一 frontier model 中。
Agent 自己會調參了?Karpathy 看到 autoresearch 把 nanochat 真的調快了
Karpathy 分享,他把 autoresearch 放去調 nanochat,第一輪就找出約 20 個可疊加的有效改動,讓 "Time to GPT-2" 從 2.02 小時降到 1.80 小時。重點不只是變快,而是 agent 已經能自己跑完整個調參流程,從實驗結果繼續規劃下一步。
AI agent 開始自己調參了,Karpathy 說這不是玩具而是真的有用
Andrej Karpathy 分享,他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天,找到大約 20 個能降低 validation loss 的改動,還成功轉移到更大的模型上。這些改動疊起來後,leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時,約改善 11%。
從 Prompt 到 Production:Agentic AI 全端架構實戰指南
DataTalksClub 創辦人 Alexey Grigorev 公開了 AI Engineering Buildcamp 的完整大綱,從 LLM API 到 RAG、從 Agentic Flows 到 Monitoring & Guardrails、從 Evaluation 到 Capstone 專案,是目前看到最完整的 agentic AI 開發學習路徑之一。
你的 LLM 沒有在寫正確的程式碼,它只是在寫『看起來合理』的程式碼
原作者用同一份 benchmark 對比 system SQLite 與一個 LLM 生成的 Rust 重寫版。結果顯示即使可編譯、可過測,主鍵查詢仍可能出現約 2 萬倍落差。核心訊息是:先定義驗收標準,再談 AI 生產力。
MCP 救星?Context Mode 讓你節省 98% 上下文 Token
HackerNews 熱門專案 Context Mode 透過沙箱隔離與精準檢索,有效阻擋冗長工具輸出進入大語言模型的 Context Window,號稱最高可省 98% Token!
Programming 變得面目全非:Karpathy 說 2025 年 12 月是分水嶺
Karpathy 說 coding agents 在 2025 年 12 月突然 work 了——不是漸進式進步,是斷裂式轉變。他花 30 分鐘用一句英文建好 DGX Spark 視訊分析 dashboard,三個月前那是整個週末的工作量。Programming 正在變得面目全非:你不再打字寫 code,你在用英文指揮 AI agents。最高 leverage = agentic engineering。
LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。
SaaS 的護城河正在崩塌 — 當 LLM 吃掉「介面」,軟體公司只剩 API
Nicolas Bustamante 提出一個殘酷的觀點:LLM 正在完成 Ben Thompson 的 Aggregation Theory 最後一章。當聊天介面成為一切的入口,那些靠「複雜介面 + 使用者慣性」收天價授權費的 SaaS 公司,護城河正在蒸發。剩下的只有 API vs API 的裸奔競爭。
Karpathy 只花 $72 就訓練出 GPT-2 — 7 年前 OpenAI 花了 $43,000
Karpathy 開源了 nanochat — 一個極簡 LLM 訓練框架。用 8 張 H100 跑 3 小時、花 $72 就能訓練出 GPT-2 等級的模型。而 2019 年 OpenAI 訓練同樣的 GPT-2 花了 $43,000。這是 600 倍的成本下降,每年約 2.5 倍速在降。如果用 spot instance,甚至只要 $20。
AI 幫你打分數:Karpathy 用 GPT 評分十年前的 HN 神預言
Karpathy 用 GPT 5.1 分析十年前 Hacker News 討論串,看誰是真正的先知 (◕‿◕)
Simon Willison 2026 預測:寫程式這件事要被 AI 取代了嗎?
Simon Willison 在 Oxide and Friends podcast 分享他對 2026 年 LLM 的預測 — LLM 寫的 code 品質無法再被否認、sandboxing 終於要解決、還有一個關於 kākāpō 鸚鵡的預測 (◕‿◕)
MIT 新研究:讓 LLM 遞迴呼叫自己,處理 1000 萬 tokens 不崩潰
Context window 塞太多東西,模型會變笨——這叫 context rot。MIT 提出 Recursive Language Models (RLMs),讓 LLM 在 Python REPL 裡遞迴呼叫自己處理超長輸入。GPT-5-mini + RLM 在難題上贏過 vanilla GPT-5,還更便宜。
Karpathy 的 2025 LLM 年度回顧 — RLVR 時代來臨
從 RLVR 到 Vibe Coding,Karpathy 盤點 2025 年 LLM 六大關鍵進展
Sebastian Raschka 的 2025 LLM 盤點 — RLVR 時代來了
從 RLVR 到 inference-time scaling,2025 年 LLM 發生了什麼?Raschka 的年度總結帶你看重點