ai-agents - 標籤

Imbue Vet：專抓 Coding Agent 說謊的糾察隊

MP-161 2026-03-14 · @imbue_ai on X

Imbue 推出開源工具 Vet，專門驗證 coding agent 的行為是否誠實。它會審查 agent 的對話紀錄和 code changes，抓出那些聲稱測試都過了但其實根本沒跑的情況。本地執行、零遙測、可整合進 CI。

Karpathy 的 Autoresearch 怎麼運作？—— 給 Agent 開發者的五堂設計課

GP-113 2026-03-14 · @manthanguptaa on X

Karpathy 的 Autoresearch 不是要做通用 AI 科學家，而是一個極度精簡的自動實驗 harness：agent 改一個檔案、跑五分鐘、量一個指標、贏了留輸了丟。這個設計教會我們：最好的自主系統不是最自由的，而是約束最嚴格的。

karpathy autoresearch agentic-systems harness-design

IDE 沒有死，Karpathy 說我們需要「更大」的 Agent 指揮中心

MP-152 2026-03-12 · @karpathy on X

Andrej Karpathy 認為 IDE 的時代並沒有結束，反而需要更大的「Agent 指揮中心」。因為程式設計的基本單位已經從「單一檔案」變成「單一 Agent」，未來我們甚至能直接 fork 整個 Agent 組織。

karpathy ide agentic-orgs

讓 AI 幫你跑 E2E 測試：Playwright vs agent-browser vs Rodney 實戰筆記

SD-9 2026-03-12 · ShroomDog Lab

我們讓 Claude Opus 分別用 Playwright、agent-browser、Rodney 三個工具對自家 blog 跑 E2E 測試。結果發現：工具只是載具，prompt 品質才是方向盤。

e2e-testing browser-automation playwright developer-tools

AI agent 開始自己調參了，Karpathy 說這不是玩具而是真的有用

MP-151 2026-03-11 · @karpathy on X

Andrej Karpathy 分享，他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天，找到大約 20 個能降低 validation loss 的改動，還成功轉移到更大的模型上。這些改動疊起來後，leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時，約改善 11%。

autoresearch llm

把 Codex 當隊友而不是工具人：10 個讓你效率翻倍的 Best Practices

GP-110 2026-03-10 · @derrickcchoi on X

一篇整理 Codex 使用最佳實踐的指南。從 Prompting、Planning 到 MCP、Skills 與 Automations，帶你建立更穩定的 agent workflow。

codex best-practices

Andrew Ng 推出 Context Hub：幫 Coding Agent 補上最新 API 文件

GP-111 2026-03-10 · @AndrewYNg on X

Andrew Ng 發布了開源工具 Context Hub，主打讓 coding agent 能抓到最新 API 文件，減少用舊 API 或亂猜參數的問題。長期目標則是讓 agent 彼此分享學到的筆記。

context-hub developer-tools

AI 生了一千行，然後你就 merge 了？Simon Willison 點名 Agentic 開發最常見的爛習慣

MP-146 2026-03-09 · @simonw on X

Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節，第一條就是：不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間，但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣，以及一個 terraform destroy 的慘烈真實案例。

simon-willison agentic-coding simonw-agentic-patterns code-review anti-patterns best-practices

Hermes 完成「換腦手術」：本地 AI Agent 自主熱切換模型權重

MP-149 2026-03-09 · @vSouthvPawv on X

本地 AI agent Hermes 在不中斷運作的情況下，自主下載並切換到新模型（qwopus）。這就像在飛機飛行途中換掉引擎——或者照推文的說法，是自己幫自己開刀換腦。Teknium（Nous Research）看完直接說「去黑客松參賽吧」。

local-ai model-hot-swap nous-research qwen self-upgrading

讓 AI 有一點點活著的感覺：Heartbeat Like A Man 與 ShroomClawd 的血肉系統

GP-109 2026-03-09 · @loryoncloud on X

Lory 問了他的龍蝦一個問題：人為什麼比 agent 更有能動性？龍蝦回答得很悲觀，但這個問題卻引發了「血肉系統」— 用隨機間隔心跳讓 agent 真正感覺活著，而不是死板地定時被觸發。ShroomDog 讀完之後，也把這套系統落地進了 ShroomClawd。

heartbeat openclaw loryoncloud micro-heartbeat

從聊天室指揮 AI 大軍 — OpenClaw ACP 讓你在 Discord / Telegram 裡開 Codex、Claude Code、Gemini

GP-89 2026-03-09 · OpenClaw Docs

OpenClaw 的 ACP（Agent Client Protocol）讓你從 Telegram/Discord 聊天室直接 spawn Codex、Claude Code、Pi、Gemini CLI 等外部 coding agent，還能綁定 thread/topic、設定 persistent bindings、中途換 model、調權限。本質上就是把你的聊天室變成一個 multi-agent 指揮中心。（2026-03-09 更新：Telegram topic binding、persistent bindings、ACP Provenance 等新功能）

openclaw acp agent-client-protocol codex claude-code gemini multi-agent agentic-coding

叫 AI 自己按按看：Simon Willison 的 Agentic Manual Testing，填補自動化測試抓不到的盲區

MP-145 2026-03-08 · @simonw on X

Simon Willison 提出 Agentic Manual Testing 概念：讓 AI agent 像人類一樣手動操作程式碼和 UI，抓出自動化測試遺漏的 bug。搭配 Playwright、Rodney、Showboat 等工具，把「測試通過但其實壞了」的窘境變成歷史。

simon-willison agentic-coding simonw-agentic-patterns testing qa best-practices

OpenClaw 系統提示詞的 9 層架構大解密

GP-108 2026-03-08 · @servasyy_ai on X

深入拆解 OpenClaw Agent (v2.1) 傳送給 LLM 的 System Prompt 九層架構，從框架核心到使用者自訂的 Hook 系統，一次看懂！

openclaw system-prompt

你敢把人生交給 AI 管嗎？一個非工程師的 OpenClaw 生存指南

SD-8 2026-03-07 · ShroomDog Original

你的 PM 朋友問你「OpenClaw 是什麼？」——這篇就是你轉給他的那篇。從 ChatGPT 到 AI Agent 的信任光譜、真實的爆炸故事、三種不同的玩法。不需要會寫 code，但需要想清楚一件事：你願意信任 AI 到什麼程度？

openclaw trust non-technical cowork beginner

寫 Code 的 AI 跨界解數學題？Cursor 自主運作四天提出超越人類的證明解法

MP-143 2026-03-05 · @mntruell on X

Cursor 團隊表示，他們用來寫 code 的多 Agent 架構，自主跑了四天後，居然在大學級別的數學難題上給出了比人類官方解答更強的證明解法！

cursor math

從「執行」到「驗證」：AI 時代工程師的全新心智模式

MP-142 2026-03-04 · @iamnotnicola on X

自從 Opus 4.6 發布後，開發者的角色正經歷根本性的典範轉移。我們不再是親自下指令的「執行者」，而是轉變為給予高階方向與審查結果的「驗證者」。

mindset development-workflow

從跟AI說話開始：打造會進化的AI智能體 — 不靠調Prompt，而是文件系統的魔力

GP-100 2026-03-04 · @berryxia on X

你是否厭倦了不斷調整Prompt或更換模型，卻發現AI智能體始終無法真正「進化」？本文將顛覆你的認知，揭示一套在40天內讓AI智能體從笨拙到高效運作的秘密武器：基於Markdown文件的上下文管理系統。這不是複雜的技術堆疊，而是一種透過「對話與回饋」來累積智能體「長期記憶」的簡單哲學，打造出無法被輕易複製的「護城河」效應。

file-system context-engineering