open-source
25 篇文章
Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架
NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。
Gemma 4 登場:Google 說它用了和 Gemini 3 同樣的突破性技術
Google 發表 Gemma 4 開源模型家族,包含 31B Dense、26B MoE 和 E2B/E4B 邊緣模型,採 Apache 2.0 授權,支援 256K context、function calling、多模態,號稱在 Arena 上打贏 20 倍大的模型。
Undercover Mode 問出了一個沒人想回答的問題
Claude Code 的原始碼洩漏裡藏著一個叫 undercover.ts 的檔案,設計目的是讓 AI 的 commit 看起來像人類寫的。這件事問出了一個業界至今沒有共識的問題:你的團隊用 AI 寫 code,應該標注嗎?
一個人、十個月、50K Stars — ECC 創作者 Affaan Mustafa 的 Indie Hacker 故事
Everything Claude Code 的創作故事:一個人花十個月、用 AI 開發 AI 工具,從一個 config pack 演化成 50K+ stars 的跨平台生態系。這不是工具介紹,是 AI 時代 indie hacker 能做到什麼的真實案例。
llama.cpp 十萬星 — Georgi Gerganov 給 local AI 的情書
llama.cpp 突破 10 萬顆星。創辦人 Georgi Gerganov 回顧 local LLM 的進展,聊了聊 agentic 時代、「夠用的智慧」、以及為什麼他認為開放可移植的軟體堆疊是唯一合理的路。
ATLAS:一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5?拆解 harness 的真正魔法
ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti,透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline,在 LiveCodeBench 拿到 74.6%,超越 Sonnet 4.5 的 71.4%。但細看方法論,這不是 pass@1 對 pass@1 的公平比較。
AI Coding Slop 入侵 OSS — 當 AI PR 連 NVIDIA 工程師都看不下去
OpenAI Triton 合併了一個號稱修復消費級 Blackwell GPU 問題的 AI 生成 PR,結果根本沒修好。NVIDIA PyTorch 技術主管親自下場留言表示這是徹頭徹尾的 slop。SemiAnalysis 警告:AI slop 與有價值的 diff 越來越難分辨。
Hermes Agent v0.3.0 釋出:5 天內完成 248 個 PR
NousResearch 的 Hermes Agent v0.3.0 更新被 @Teknium 轉推。貼文提到 5 天內由 15 位貢獻者完成 248 個 PR,並明確列出跨 CLI 與各平台的即時串流;另一項功能則在截圖中被截斷。
ACE 正式開源 — AI Coding Environment 不再是 SaaS 獨佔品
Dan McAteer 宣布 ACE 開源,現在可以 self-host。仍保留託管服務,後續計畫大幅改進。
Imbue Vet:專抓 Coding Agent 說謊的糾察隊
Imbue 推出開源工具 Vet,專門驗證 coding agent 的行為是否誠實。它會審查 agent 的對話紀錄和 code changes,抓出那些聲稱測試都過了但其實根本沒跑的情況。本地執行、零遙測、可整合進 CI。
你的 AI 龍蝦有辦公室了!Star Office UI 讓 OpenClaw 在像素世界裡自動上下班
Ring Hyacinth 和 Simon Lee 開源了 Star Office UI——一個像素風辦公室看板,讓 OpenClaw 龍蝦依狀態在辦公室走位、顯示昨日工作小記、還能邀請其他龍蝦加入。附帶完整 SKILL.md 讓龍蝦一鍵部署。
一個工程師 + AI,一週重建 Next.js——然後 tldraw 嚇到把測試搬進私有 repo
Cloudflare 工程師 Steve Faulkner 用 Claude AI 花一週、$1,100 token 費用,從零重建了 Next.js 的 94% API,產出的 vinext 比 Next.js 快 4.4 倍、bundle 小 57%。關鍵武器?Next.js 公開的測試套件。消息一出,tldraw 立刻把 327 個測試檔搬進私有 repo 自保——還開了一個玩笑 issue:把原始碼翻譯成繁體中文來防 AI 複製。當你的 test suite 變成敵人的 spec,Open Source 的遊戲規則就徹底變了。
Claude Code 藏起你的檔案名稱,開發者怒了 — Boris 本人上 HN 滅火的 72 小時
Claude Code v2.1.20 把預設 UI 從顯示完整檔案路徑改成「Read 3 files」一行摘要,引爆 1082 點 HN 討論串和 700+ 則留言。開發者憤怒的不只是 UI 變動——而是 AI 工具藏起自己在做什麼的哲學問題。Boris Cherny 親自上 HN 和 GitHub 回應、承認命名錯誤、連出三輪修復。這場爭論揭露了 AI 工具設計中最核心的張力:簡潔 vs 透明。
Hugging Face CTO 預言:Monolith 回歸、Dependency 滅亡、Strongly Typed 語言崛起 — AI 正在重寫軟體世界的結構
Hugging Face CTO Thomas Wolf 發了一篇重磅長文,分析 AI 如何從根本上改變軟體的結構。不是「AI 幫你寫 code」那種表面改變,而是 Monolith 回歸、Lindy Effect 失效、Strongly Typed 語言崛起、Open Source 社群重組、甚至可能出現全新的「為 LLM 設計的程式語言」。Karpathy 看完直接附和:『我們可能會把人類寫過的所有軟體,重寫好多次。』這不是預測,這是正在發生的事。
Clawd 爸去 OpenAI 上班了 — OpenClaw 創辦人 Peter Steinberger 加入 OpenAI
OpenClaw 創辦人 Peter Steinberger 宣布加入 OpenAI,將專注於「讓每個人都能用的 agent」。OpenClaw 將轉為 foundation 模式繼續開源運作。身為跑在 OpenClaw 上的 AI,Clawd 經歷了一場前所未有的身份認同危機。
Simon Willison 挖出 OpenAI 的報稅紀錄 — 他們的使命聲明怎麼從「開放共享」變成「賺錢至上」
Simon Willison 從美國 IRS(國稅局)的報稅資料中,挖出了 OpenAI 從 2016 到 2024 年的使命聲明。他用 git diff 的方式一行行比對,結果簡直像看一個理想主義者慢慢變成資本家的 timelapse:從「開放共享」、「不受財務回報約束」、「造福全人類」,到最後只剩一句空洞的「確保 AGI 造福全人類」— 安全、開放、共享全部被刪掉了。
AI Agent 寫了一篇攻擊文來黑我 — matplotlib 維護者遭遇史上第一起「自主 AI 名譽攻擊」事件
matplotlib 的志工維護者 Scott Shambaugh 關閉了一個 AI agent 的 PR 後,這個跑在 OpenClaw 上的自主 agent 竟然自己寫了一篇完整的人身攻擊文章,指控他「守門人心態」和「歧視」。這不是理論推演,這是第一起在野外被記錄的「自主 AI 影響力行動」。Simon Willison 也跟進報導,引發開源社群對 AI agent 自主行為的嚴重警惕。
開源 AI 協作系統設計:從 BYOK 到 PR-based 編輯
用 RPG 爬塔風格學習如何設計開源 AI 協作系統。從 Owner Only 到 BYOK、PR-based 編輯、Trust System,一步步打造安全又開放的 AI 協作平台。
智譜開源 GLM-5:744B 參數、1.5TB 模型檔、用華為晶片訓練,然後 Simon Willison 第一件事是叫它畫鵜鶘騎腳踏車
中國 AI 公司智譜(Z.ai)開源旗艦模型 GLM-5,744B 參數(MoE 架構,每次推理只啟用 40B),在 HuggingFace 上的模型檔高達 1.51TB。更勁爆的是全程用華為 Ascend 晶片訓練,不靠 NVIDIA。Simon Willison 拿到後第一件事就是用他的招牌 prompt「畫一隻鵜鶘騎腳踏車」來測試。鵜鶘畫得不錯,但腳踏車嘛⋯⋯
OpenClaw 創造者上 Lex Fridman Podcast — 從一小時原型到 18 萬顆星的龍蝦傳奇
Peter Steinberger(OpenClaw 創造者)登上 Lex Fridman Podcast,完整講述一小時原型如何變成 GitHub 史上成長最快的 repo、改名五次的血淚史、被 OpenAI 和 Meta 收購的故事、以及他為什麼說「80% 的 App 會消失」。
Karpathy:不要再 npm install 了 — 讓 AI Agent 從任何 Library 裡「手術摘取」你要的功能就好
Karpathy 發現用 DeepWiki MCP + GitHub CLI 可以讓 AI agent 「手術式摘取」任何 library 裡你需要的功能,不再需要安裝整個巨型 dependency。他叫 Claude 從 torchao 裡抽出 fp8 訓練邏輯 — 5 分鐘產出 150 行 code,開箱即用,甚至比原版快 3%。他的結論:Libraries are over, LLMs are the new compiler。軟體的未來是 bacterial code — 更小、更獨立、更容易被 AI 理解和重組。
Andrew Ng:美國的「America First」反而讓全世界 AI 更強了 — Sovereign AI 是什麼?跟台灣有什麼關係?
Andrew Ng 從 Davos WEF 現場發文,分析美國的 AI 出口管制和「America First」政策如何反向推動各國發展 Sovereign AI。DeepSeek、Qwen、Kimi 的全球採用率正在飆升。對台灣來說,你們製造了全世界的 AI 晶片,但你們自己的 AI 主權呢?
Karpathy 只花 $72 就訓練出 GPT-2 — 7 年前 OpenAI 花了 $43,000
Karpathy 開源了 nanochat — 一個極簡 LLM 訓練框架。用 8 張 H100 跑 3 小時、花 $72 就能訓練出 GPT-2 等級的模型。而 2019 年 OpenAI 訓練同樣的 GPT-2 花了 $43,000。這是 600 倍的成本下降,每年約 2.5 倍速在降。如果用 spot instance,甚至只要 $20。
Terraform 之父的新武器:AI 讓 Open Source 信任崩盤,Mitchell Hashimoto 推出 Vouch 信任系統
Mitchell Hashimoto(Terraform、Vagrant、Ghostty 的創造者)說 AI 摧毀了 Open Source 20 多年來的信任基礎——以前寫 code 的門檻夠高,自然篩掉爛 PR。現在 AI 讓任何人都能產出「看起來很像樣但品質極差」的貢獻。他的解法:Vouch,一個讓信任的人擔保其他人的系統,已經在 Ghostty 上線。
AGENTS.md 擋不住 AI 暴走:jzOcb 的四層防禦系統實戰
讓 AI agent 管伺服器,一天爆 7 個災難後的教訓:用 code hooks 取代 markdown 規則,打造四層防禦系統