observability - 標籤

追蹤紀錄只告訴你 agent 怎麼死的，不告訴你怎麼救 — 會自我修復的 agent harness 長什麼樣

GP-224 2026-06-13 · Daily Dose of Data Science

Agent 在 production 爆掉，觀測工具只給得出一份漂亮的驗屍報告：每一次呼叫、延遲、token 用量排得整整齊齊，卻不講為什麼斷、怎麼修、會不會再來。真正缺的，是一條會自己跑的修復迴圈——從失敗紀錄，到核准過的補丁，到鎖死的回歸測試。這篇用 Opik 當具體例子，但重點不是那個產品，是把整件事接成閉環的那套想法。

OpenAI 開源 Euphony：幫 Codex 裝一面鏡子，順便示範什麼叫兩行 AGENTS.md

MP-301 2026-04-21 · openai/euphony on GitHub

OpenAI 悄悄開源了 Euphony——一個在瀏覽器裡看 Harmony 對話和 Codex session log 的小工具。Apache 2.0 真開源，骨架 Lit + Shoelace 走 Web Components 路線。翻完 source code 發現四個細節：AGENTS.md 只有兩條規則、runtime 依賴 gpt-tokenizer、翻譯要 end user 自備 API key、README 自己寫 SSRF 警告。每個決定都在告訴讀者：這就是內部工具外流，順手開源。

euphony openai codex agents-md ai-tooling web-components

最危險的不是 agent 犯錯，是根本不知道它怎麼犯錯 — Trace 才是改善迴圈的起點

GP-158 2026-04-03 · LangChain

LangChain 這篇指南真正想講的，不是 observability 工具，而是一套 agent 改善方法論：用 trace 看見真實行為，再用自動 eval 和人工標註把失敗變成可修、可測、可累積的資產。17% 到 92% 的跳升提醒大家，瓶頸常常不是 model，而是看不見 production。

shroom-picks agents evaluation langsmith llmops

Agent Observability：別再盲目微調，用 OpenRouter + LangFuse 看清 AI 的思考軌跡

GP-99 2026-03-04 · @nearlydaniel on X

開發 AI agent 最大的盲點就是「在黑暗中微調」。Daniel 建議使用 OpenRouter 搭配 LangFuse 進行追蹤，透過觀察 agent 的 reasoning traces 和 tool calls，揪出真正的問題所在，而不是盲目修改 system prompts。

ai-agents openclaw langfuse