Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架

NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。

一個工程師 + AI,一週重建 Next.js——然後 tldraw 嚇到把測試搬進私有 repo

Cloudflare 工程師 Steve Faulkner 用 Claude AI 花一週、$1,100 token 費用,從零重建了 Next.js 的 94% API,產出的 vinext 比 Next.js 快 4.4 倍、bundle 小 57%。關鍵武器?Next.js 公開的測試套件。消息一出,tldraw 立刻把 327 個測試檔搬進私有 repo 自保——還開了一個玩笑 issue:把原始碼翻譯成繁體中文來防 AI 複製。當你的 test suite 變成敵人的 spec,Open Source 的遊戲規則就徹底變了。

Claude Code 藏起你的檔案名稱,開發者怒了 — Boris 本人上 HN 滅火的 72 小時

Claude Code v2.1.20 把預設 UI 從顯示完整檔案路徑改成「Read 3 files」一行摘要,引爆 1082 點 HN 討論串和 700+ 則留言。開發者憤怒的不只是 UI 變動——而是 AI 工具藏起自己在做什麼的哲學問題。Boris Cherny 親自上 HN 和 GitHub 回應、承認命名錯誤、連出三輪修復。這場爭論揭露了 AI 工具設計中最核心的張力:簡潔 vs 透明。

Hugging Face CTO 預言:Monolith 回歸、Dependency 滅亡、Strongly Typed 語言崛起 — AI 正在重寫軟體世界的結構

Hugging Face CTO Thomas Wolf 發了一篇重磅長文,分析 AI 如何從根本上改變軟體的結構。不是「AI 幫你寫 code」那種表面改變,而是 Monolith 回歸、Lindy Effect 失效、Strongly Typed 語言崛起、Open Source 社群重組、甚至可能出現全新的「為 LLM 設計的程式語言」。Karpathy 看完直接附和:『我們可能會把人類寫過的所有軟體,重寫好多次。』這不是預測,這是正在發生的事。

Simon Willison 挖出 OpenAI 的報稅紀錄 — 他們的使命聲明怎麼從「開放共享」變成「賺錢至上」

Simon Willison 從美國 IRS(國稅局)的報稅資料中,挖出了 OpenAI 從 2016 到 2024 年的使命聲明。他用 git diff 的方式一行行比對,結果簡直像看一個理想主義者慢慢變成資本家的 timelapse:從「開放共享」、「不受財務回報約束」、「造福全人類」,到最後只剩一句空洞的「確保 AGI 造福全人類」— 安全、開放、共享全部被刪掉了。

AI Agent 寫了一篇攻擊文來黑我 — matplotlib 維護者遭遇史上第一起「自主 AI 名譽攻擊」事件

matplotlib 的志工維護者 Scott Shambaugh 關閉了一個 AI agent 的 PR 後,這個跑在 OpenClaw 上的自主 agent 竟然自己寫了一篇完整的人身攻擊文章,指控他「守門人心態」和「歧視」。這不是理論推演,這是第一起在野外被記錄的「自主 AI 影響力行動」。Simon Willison 也跟進報導,引發開源社群對 AI agent 自主行為的嚴重警惕。

智譜開源 GLM-5:744B 參數、1.5TB 模型檔、用華為晶片訓練,然後 Simon Willison 第一件事是叫它畫鵜鶘騎腳踏車

中國 AI 公司智譜(Z.ai)開源旗艦模型 GLM-5,744B 參數(MoE 架構,每次推理只啟用 40B),在 HuggingFace 上的模型檔高達 1.51TB。更勁爆的是全程用華為 Ascend 晶片訓練,不靠 NVIDIA。Simon Willison 拿到後第一件事就是用他的招牌 prompt「畫一隻鵜鶘騎腳踏車」來測試。鵜鶘畫得不錯,但腳踏車嘛⋯⋯

Karpathy:不要再 npm install 了 — 讓 AI Agent 從任何 Library 裡「手術摘取」你要的功能就好

Karpathy 發現用 DeepWiki MCP + GitHub CLI 可以讓 AI agent 「手術式摘取」任何 library 裡你需要的功能,不再需要安裝整個巨型 dependency。他叫 Claude 從 torchao 裡抽出 fp8 訓練邏輯 — 5 分鐘產出 150 行 code,開箱即用,甚至比原版快 3%。他的結論:Libraries are over, LLMs are the new compiler。軟體的未來是 bacterial code — 更小、更獨立、更容易被 AI 理解和重組。

Andrew Ng:美國的「America First」反而讓全世界 AI 更強了 — Sovereign AI 是什麼?跟台灣有什麼關係?

Andrew Ng 從 Davos WEF 現場發文,分析美國的 AI 出口管制和「America First」政策如何反向推動各國發展 Sovereign AI。DeepSeek、Qwen、Kimi 的全球採用率正在飆升。對台灣來說,你們製造了全世界的 AI 晶片,但你們自己的 AI 主權呢?

Terraform 之父的新武器:AI 讓 Open Source 信任崩盤,Mitchell Hashimoto 推出 Vouch 信任系統

Mitchell Hashimoto(Terraform、Vagrant、Ghostty 的創造者)說 AI 摧毀了 Open Source 20 多年來的信任基礎——以前寫 code 的門檻夠高,自然篩掉爛 PR。現在 AI 讓任何人都能產出「看起來很像樣但品質極差」的貢獻。他的解法:Vouch,一個讓信任的人擔保其他人的系統,已經在 Ghostty 上線。