Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對

Epoch AI 更新 SWE-bench Verified 評測流程(v2.x)後,多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型,而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊:benchmark 不只是看模型,還要看評測管線是否可重現。

Epoch 最新數據:Anthropic 可能在 2026 年中超車 OpenAI 營收 — 10× vs 3.4× 的殘酷加速度

Epoch AI 用公開資料建模指出:自從兩家公司都達到 annualized revenue $1B 之後,Anthropic 的年化成長率約 10×,OpenAI 約 3.4×。若趨勢延續,交叉點可能在 2026 年 8 月、run-rate 約 $43B。即使採用更保守假設(Anthropic 放緩至 7×,或雙方內部預測放慢),交叉時間仍可能落在 2026-2027。

AI 推論成本每年暴跌 5-10 倍 — Epoch AI 用真實數據告訴你:今天付不起的 AI,明年就跟泡麵一樣便宜

Epoch AI 研究員用 FrontierMath 的真實數據拆解一個關鍵問題:AI 推論成本到底會不會一直這麼貴?答案是不會。固定能力等級的推論成本每年下降 5-10 倍 — 今天花 5 萬美元才能完成的任務,明年可能只要 5,000,後年只要 500。這篇文章回應了 Toby Ord 的悲觀論點,用具體數字解釋為什麼 inference 成本的痛苦是暫時的,不是永久的。

Epoch AI 研究員親自測試:AI 離搶走我的工作還有多遠?

Epoch AI 研究員 Anson Ho 不靠 benchmark,直接拿自己的三項日常工作讓 AI 做:寫互動網頁、寫分析文章、搬文章上架。結果?AI 在 benchmark 上屌打人類,但做真正的工作還是會在各種奇怪的地方翻車。他預測 2026 年底前 AI 還搶不走他的工作,但 2028-2029 就很難說了。