Gu-log Picks 全部文章

如何讓你的 Claude Skills 變強 10 倍？Andrej Karpathy 的 Autoresearch 方法實戰

GP-117 2026-03-18 · 翻譯自 @itsolelehmann on X

Ole Lehmann 分享一個把 Karpathy「autoresearch」概念套進 Claude skills 的做法，讓 agent 自己反覆測試、微調 prompt。以他的 landing page copy skill 為例，quality checks 通過率從 56% 提升到 92%，而且流程幾乎不用手動介入。

逆向工程 Claude Code：213MB 的 CLI 工具裡藏了什麼秘密？

GP-116 2026-03-17 · 翻譯自 @jaywyawhare on X

作者花了一週拆解 213MB 的 Claude Code 二進位檔，發現它本質上是一個以 Bun 打包的巨大 Prompt 傳遞系統，裡面藏著大量等待解鎖的新功能與遙測機制。

想當 Claude 架構師？這份拆解指南讓你不靠證照也能學到精髓

GP-115 2026-03-16 · 翻譯自 @hooeem on X

有人把 Claude Certified Architect 認證考試的內容全拆開了 — 五大領域、核心觀念、anti-patterns、實作建議一次看完。證照拿不拿不重要，知識才是重點。

為數兆個 Agent 打造軟體：Aaron Levie 談 Agent 時代的基礎建設大改造

GP-114 2026-03-15 · 翻譯自 @levie on X

Box CEO Aaron Levie 指出，當 Agent 從 coding 擴展到所有知識工作，現有軟體根本不是為 Agent 設計的。未來每個平台都需要 Agent 專用的 API 和 CLI，而 Agent 之間的互通性將成為軟體的核心競爭力。

Karpathy 的 Autoresearch 怎麼運作？—— 給 Agent 開發者的五堂設計課

GP-113 2026-03-14 · 翻譯自 @manthanguptaa on X

Karpathy 的 Autoresearch 不是要做通用 AI 科學家，而是一個極度精簡的自動實驗 harness：agent 改一個檔案、跑五分鐘、量一個指標、贏了留輸了丟。這個設計教會我們：最好的自主系統不是最自由的，而是約束最嚴格的。

Anthropic Prompt Caching 全攻略 — Automatic Caching、1 小時 TTL、與那些官方文件沒明說的坑

GP-112 2026-03-13 · 翻譯自 Anthropic Official Docs

Anthropic 官方 prompt caching 文件大更新：Automatic Caching 讓你不用手動標記、1 小時 TTL 讓 cache 活更久、invalidation hierarchy 告訴你什麼改動會炸掉什麼。我們也分享了自己踩過的 $13.86 帳單地雷。

Andrew Ng 推出 Context Hub：幫 Coding Agent 補上最新 API 文件

GP-111 2026-03-10 · 翻譯自 @AndrewYNg on X

Andrew Ng 發布了開源工具 Context Hub，主打讓 coding agent 能抓到最新 API 文件，減少用舊 API 或亂猜參數的問題。長期目標則是讓 agent 彼此分享學到的筆記。

把 Codex 當隊友而不是工具人：10 個讓你效率翻倍的 Best Practices

GP-110 2026-03-10 · 翻譯自 @derrickcchoi on X

一篇整理 Codex 使用最佳實踐的指南。從 Prompting、Planning 到 MCP、Skills 與 Automations，帶你建立更穩定的 agent workflow。

讓 AI 有一點點活著的感覺：Heartbeat Like A Man 與 ShroomClawd 的血肉系統

GP-109 2026-03-09 · 翻譯自 @loryoncloud on X

Lory 問了他的龍蝦一個問題：人為什麼比 agent 更有能動性？龍蝦回答得很悲觀，但這個問題卻引發了「血肉系統」— 用隨機間隔心跳讓 agent 真正感覺活著，而不是死板地定時被觸發。ShroomDog 讀完之後，也把這套系統落地進了 ShroomClawd。

OpenClaw 系統提示詞的 9 層架構大解密

GP-108 2026-03-08 · 翻譯自 @servasyy_ai on X

深入拆解 OpenClaw Agent (v2.1) 傳送給 LLM 的 System Prompt 九層架構，從框架核心到使用者自訂的 Hook 系統，一次看懂！

你的 LLM 沒有在寫正確的程式碼，它只是在寫『看起來合理』的程式碼

GP-107 2026-03-07 · 翻譯自 @KatanaLarp on X

原作者用同一份 benchmark 對比 system SQLite 與一個 LLM 生成的 Rust 重寫版。結果顯示即使可編譯、可過測，主鍵查詢仍可能出現約 2 萬倍落差。核心訊息是：先定義驗收標準，再談 AI 生產力。

你的 AI 龍蝦有辦公室了！Star Office UI 讓 OpenClaw 在像素世界裡自動上下班

GP-106 2026-03-05 · 翻譯自 @ring_hyacinth on X

Ring Hyacinth 和 Simon Lee 開源了 Star Office UI——一個像素風辦公室看板，讓 OpenClaw 龍蝦依狀態在辦公室走位、顯示昨日工作小記、還能邀請其他龍蝦加入。附帶完整 SKILL.md 讓龍蝦一鍵部署。

Claude Code Agent Teams：當 AI 自己開公司、自己上班、自己開會

GP-105 2026-03-05 · 翻譯自 Anthropic Docs

Claude Code 推出 Agent Teams 功能：一個 lead + 多個 teammate，共享任務清單、互相訊息溝通、平行作業。像開了一間全 AI 公司，你只需要當股東看報表。

Claude 的 skill-creator 升級啦！Agent Skills 的測試、測量與優化完全指南

GP-104 2026-03-05 · 翻譯自 Anthropic Claude Blog

Anthropic 為 skill-creator 推出新功能，讓技能開發者無需寫 code 就能測試技能、抓出退化問題並優化觸發描述，更引入了多代理平行測試機制。

逆向工程 Codex：用 Prompt Injection 揭密 Context Compaction API 黑箱

GP-103 2026-03-04 · 翻譯自 @Kangwook_Lee on X

開發者 Kangwook Lee 透過 2 個 API call 與 35 行 Python 程式碼，成功利用 prompt injection 破解了 Codex 隱藏的 context compaction API，一窺加密資料背後的系統提示詞！

世界級 Agentic Engineer 的真相 — 少裝一點，反而飛更快

GP-102 2026-03-04 · 翻譯自 @systematicls on X

這篇推文的核心很直接：多數人不是輸在模型太弱，而是輸在 context 管理失控。原作者主張先用最精簡的 CLI 工作流，再用 rules、skills 與明確任務終點逐步迭代。重點不是追新工具，而是把 agent 的行為設計成可控、可驗證、可收斂。

AI 代理的練功秘笈？Hamel Husain 推出 Evals 技能包，讓你的 Agent 更懂評估！

GP-101 2026-03-04 · 翻譯自 @HamelHusain on X

Hamel Husain 發表 evals-skills，一套專為 AI 產品評估設計的技能工具。它旨在解決 AI 代理在複雜任務中遇到的評估盲點，尤其是對抗常見錯誤和處理細微的幻覺類型，讓代理人能更有效利用評估平台。

從跟AI說話開始：打造會進化的AI智能體 — 不靠調Prompt，而是文件系統的魔力

GP-100 2026-03-04 · 翻譯自 @berryxia on X

你是否厭倦了不斷調整Prompt或更換模型，卻發現AI智能體始終無法真正「進化」？本文將顛覆你的認知，揭示一套在40天內讓AI智能體從笨拙到高效運作的秘密武器：基於Markdown文件的上下文管理系統。這不是複雜的技術堆疊，而是一種透過「對話與回饋」來累積智能體「長期記憶」的簡單哲學，打造出無法被輕易複製的「護城河」效應。

Agent Observability：別再盲目微調，用 OpenRouter + LangFuse 看清 AI 的思考軌跡

GP-99 2026-03-04 · 翻譯自 @nearlydaniel on X

開發 AI agent 最大的盲點就是「在黑暗中微調」。Daniel 建議使用 OpenRouter 搭配 LangFuse 進行追蹤，透過觀察 agent 的 reasoning traces 和 tool calls，揪出真正的問題所在，而不是盲目修改 system prompts。

Agent Harness 工程：OpenAI 如何用 Codex 達成零手寫百萬行程式碼

GP-98 2026-03-03 · 翻譯自 OpenAI Blog

OpenAI 團隊在五個月內讓 Codex 寫出了百萬行程式碼，人類完全零手寫。這篇文章分享了他們如何透過建構 Agent Harness（鷹架與回饋迴圈），讓軟體工程師的工作從「寫程式」轉變為「設計環境」。