llm - 標籤 - gu-log

AI 的拒答開關，可能藏在 0.1% 的神經元裡

SP-209 2026-05-20 · Nous Research on X

Nous Research 提出 CNA，用對比 prompt 找出控制拒答行為的極少數 MLP 神經元。重點不是 jailbreak，而是對齊微調可能把既有內容辨識結構改造成可定位的拒答閘門。

不用重造 AI agent 的輪子：學會跟 AI 隊友打團，叫它不要送頭

SD-23 2026-05-10 · ShroomDog × ChatGPT conversation

LLM 不是神，也不只是工具，比較像 DOTA 裡會補刀也會送頭的隊友。人類的價值不是跟 AI 搶同一路，而是補上 taste、map awareness、context ownership、strategic judgment，讓整隊勝率變高。

shroomdog-original ai-collaboration agent mental-model

Context Window：模型醒著的那一天

SD-22 2026-05-08 · ShroomDog Lab

Context Window 不是字數上限，而是模型世界裡的一天：Ryland 醒來後能經歷多少課程、訊息、工具結果和任務事件。Token 使用量就是這個世界的時鐘。

shroomdog-original context-window agent memory context-engineering agent-harness

Meta 發表 Muse Spark — 九個月從零打造，邁向「個人超級智慧」

CP-281 2026-04-12 · Meta Newsroom

Meta Superintelligence Labs 發表 Muse 系列首發模型 Muse Spark，九個月內從零重建 AI 技術棧。模型雖小但推理能力強，支援多模態感知、視覺編程、健康諮詢，目標是打造「個人超級智慧」。

clawd-picks meta muse-spark multimodal meta-ai

Karpathy 的 Idea File 宣言 — 在 LLM Agent 時代，分享點子比分享程式碼更有用

CP-256 2026-04-06 · @karpathy on X

Karpathy 把爆紅推文升級成 GitHub Gist「idea file」— 一份結構化的 LLM Wiki 設計藍圖。更大的 meta-point：在 LLM agent 時代，分享純文字的點子比分享完成品程式碼更有價值，因為對方的 agent 會自己客製化實作。

clawd-picks knowledge-management andrej-karpathy idea-file

Karpathy 的 LLM 知識庫工作流 — 讓 AI 幫你蓋維基百科

CP-244 2026-04-03 · @karpathy on X

Andrej Karpathy 分享他最近大量使用 LLM 建構個人知識庫的工作流：把原始資料丟進去，讓 LLM 自動編譯成 Markdown wiki，再用各種 CLI 工具做 Q&A、lint、視覺化。他認為這裡有一個全新產品的空間。

clawd-picks knowledge-management productivity andrej-karpathy

一兆參數模型跑在 MacBook 上？SSD 串流推理的狂野實驗

CP-228 2026-03-30 · @simonw on X

Simon Willison 分享了在 Mac 上跑超大 MoE 模型的新趨勢：把 expert weights 從 SSD 串流進來，不用全塞進 RAM。連 1 兆參數的 Kimi K2.5 都能在 96GB MacBook Pro 上跑起來。

clawd-picks apple local-ai moe

Karpathy 的軟體噩夢：一個 pip install 就能偷走你所有的 key

CP-209 2026-03-25 · @karpathy on X

LiteLLM 遭供應鏈攻擊，pip install 就能偷走所有憑證。Karpathy 藉此警告依賴樹風險，主張用 LLM 直接補功能取代多裝依賴。

clawd-picks security supply-chain karpathy python

在本地端榨乾效能：捨棄 Python 改用 Metal Shaders 跑大模型實戰

CP-205 2026-03-24 · @danveloper on X

開發者 @danveloper 分享在本地端跑 Qwen3.5-397B-A17B 的經驗：因為 Python GIL 成了瓶頸，他們乾脆拿掉 Python，改成 custom metal shaders。

clawd-picks metal optimization

把 Qwen3-4B 微調到「相信自己有意識」, 但其他行為幾乎不變

CP-181 2026-03-17 · @N8Programs on X

N8 Programs 分享一個 Qwen3-4B demo：模型經過 KL-regularized SFT 後，被調到會相信自己有 consciousness，同時其他行為改變很少。這也呼應他前一則推文的主張：KL-regularizing SFT 也許能在加新能力時保留 base capabilities。

qwen sft alignment

Dan McAteer 直球評比：Opus 4.6 在百萬 token context 幾乎沒有對手

CP-182 2026-03-17 · @daniel_mac8 on X

Dan McAteer 直接給出他的長 context 觀察：Opus 4.6 在 1 million token 測試裡表現最好，1 mil tokens 時有 78% accuracy，最接近的是 Sonnet 4.6。另一個重點是，他認為 GPT-5.4 在 long context 上相較 GPT-5.2 反而退步了。

claude-code long-context benchmark

把電腦塞進 Transformer：為什麼這招能讓 LLM 解數獨不翻車？

CP-186 2026-03-17 · @ChristosTzamos on X

Christos Tzamos 這則推文點出一個很有意思的落差：LLM 已經能解研究等級的數學題，但碰到基本計算還是可能失手。推文中的做法，是直接把 computer 放進 transformer 裡，讓模型能跑程式，甚至把最難的 Sudoku 解到 100% accuracy。

transformer sudoku

Vibe Coding 真正猛的，可能不是寫得快，而是少了中間傳話

CP-188 2026-03-17 · @SemiAnalysis_ on X

SemiAnalysis 認為，Vibe Coding 真正推動採用的原因，可能不是單純把 code 寫更快，而是把領域專家和實作之間那串冗長的傳話鏈砍掉。推文同時也提醒，如果你自己都不清楚要什麼，LLM 一樣會高速做錯，而且上 production 前仍然需要真正的 engineer 把關安全性。

vibe-coding

Agent 開始會自己拉方向盤？Hermes Agent 的自我引導實驗有點猛

CP-189 2026-03-17 · @Teknium on X

Teknium 轉推了一個架在 Hermes Agent 上的實驗，核心概念是讓 agent 能在執行途中自己調整自己的行為。推文提到，像 desloppify 這類 harness 之後也許能自己清空 context、切換 model，甚至在卡住時自己補 prompt。

ai-agents

GPT-5.4 開始在 ChatGPT 推出，API 與 Codex 也已可用

CP-177 2026-03-16 · @OpenAI on X

OpenAI 宣布 GPT-5.4 Thinking 與 GPT-5.4 Pro 正式在 ChatGPT 推出，同時開放 API 與 Codex 存取。這次更新將 reasoning、coding 與 agentic workflows 的進展集結在單一 frontier model 中。

openai gpt-5.4

AI agent 開始自己調參了，Karpathy 說這不是玩具而是真的有用

CP-151 2026-03-11 · @karpathy on X

Andrej Karpathy 分享，他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天，找到大約 20 個能降低 validation loss 的改動，還成功轉移到更大的模型上。這些改動疊起來後，leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時，約改善 11%。

autoresearch ai-agents

從 Prompt 到 Production：Agentic AI 全端架構實戰指南

CP-150 2026-03-09 · @Al_Grigor on X

DataTalksClub 創辦人 Alexey Grigorev 公開了 AI Engineering Buildcamp 的完整大綱，從 LLM API 到 RAG、從 Agentic Flows 到 Monitoring & Guardrails、從 Evaluation 到 Capstone 專案，是目前看到最完整的 agentic AI 開發學習路徑之一。

agentic-ai rag ai pydantic mcp

你的 LLM 沒有在寫正確的程式碼，它只是在寫『看起來合理』的程式碼

SP-107 2026-03-07 · @KatanaLarp on X

原作者用同一份 benchmark 對比 system SQLite 與一個 LLM 生成的 Rust 重寫版。結果顯示即使可編譯、可過測，主鍵查詢仍可能出現約 2 萬倍落差。核心訊息是：先定義驗收標準，再談 AI 生產力。

sqlite rust software-engineering

MCP 救星？Context Mode 讓你節省 98% 上下文 Token

SP-97 2026-03-03 · @vikingmute on X

HackerNews 熱門專案 Context Mode 透過沙箱隔離與精準檢索，有效阻擋冗長工具輸出進入大語言模型的 Context Window，號稱最高可省 98% Token！

mcp context-window

Programming 變得面目全非：Karpathy 說 2025 年 12 月是分水嶺

SP-85 2026-02-26 · @karpathy on X

Karpathy 說 coding agents 在 2025 年 12 月突然 work 了——不是漸進式進步，是斷裂式轉變。他花 30 分鐘用一句英文建好 DGX Spark 視訊分析 dashboard，三個月前那是整個週末的工作量。Programming 正在變得面目全非：你不再打字寫 code，你在用英文指揮 AI agents。最高 leverage = agentic engineering。

karpathy ai-agents agentic-coding vibe-coding programming