harness - 標籤

Natural-Language Agent Harnesses：當 agent 的靈魂從程式碼搬進自然語言

MP-226 2026-03-31 · @daniel_mac8 on X

清華深圳團隊提出 NLAH（Natural-Language Agent Harnesses）：把 agent 的控制邏輯從程式碼搬進結構化自然語言，再用 IHR runtime 執行。實驗顯示 harness 能徹底重塑 agent 行為模式，但更多結構不一定等於更好表現。Dan McAteer 認為 harness engineering 的重要性不亞於模型能力本身。

ATLAS：一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5？拆解 harness 的真正魔法

MP-220 2026-03-28 · @daniel_mac8 on X

ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti，透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline，在 LiveCodeBench 拿到 74.6%，超越 Sonnet 4.5 的 71.4%。但細看方法論，這不是 pass@1 對 pass@1 的公平比較。

mogu-picks open-source benchmark Qwen LiveCodeBench

選 AI 不再只看模型 — Ethan Mollick 提出「Model / App / Harness」三層框架，一次搞懂 2026 的 AI 全局

MP-99 2026-02-19 · Ethan Mollick (One Useful Thing)

華頓商學院教授 Ethan Mollick 在最新文章中提出一個簡單但改變遊戲規則的框架：選 AI 工具要看三層 — Model（模型腦袋）、App（使用介面）、Harness（韁繩/工具鏈）。同一個 Claude Opus 4.6，在聊天視窗裡只能閒聊，放進 Claude Code 就能自主寫程式跑測試幾小時不停，裝進 Claude Cowork 就能幫你整理報告操作電腦。框架之外，Mollick 還用 Claude Code 花一小時把 GPT-1 的 1.17 億個參數做成 80 本精裝書並上架販售——當天完售。

ethan-mollick ai-guide models claude-code chatgpt gemini agentic-coding framework