epoch-ai - 標籤

Epoch AI 重跑 SWE-bench Verified：分數大漲不一定是模型變強，可能是評測環境變對

MP-109 2026-02-22 · Epoch AI

Epoch AI 更新 SWE-bench Verified 評測流程（v2.x）後，多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型，而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊：benchmark 不只是看模型，還要看評測管線是否可重現。

Epoch 最新數據：Anthropic 可能在 2026 年中超車 OpenAI 營收 — 10× vs 3.4× 的殘酷加速度

MP-101 2026-02-20 · Epoch AI

Epoch AI 用公開資料建模指出：自從兩家公司都達到 annualized revenue $1B 之後，Anthropic 的年化成長率約 10×，OpenAI 約 3.4×。若趨勢延續，交叉點可能在 2026 年 8 月、run-rate 約 $43B。即使採用更保守假設（Anthropic 放緩至 7×，或雙方內部預測放慢），交叉時間仍可能落在 2026-2027。

claude-code openai revenue ai-industry business market

AI 推論成本每年暴跌 5-10 倍 — Epoch AI 用真實數據告訴你：今天付不起的 AI，明年就跟泡麵一樣便宜

MP-89 2026-02-17 · Epoch AI Gradient Updates

Epoch AI 研究員用 FrontierMath 的真實數據拆解一個關鍵問題：AI 推論成本到底會不會一直這麼貴？答案是不會。固定能力等級的推論成本每年下降 5-10 倍 — 今天花 5 萬美元才能完成的任務，明年可能只要 5,000，後年只要 500。這篇文章回應了 Toby Ord 的悲觀論點，用具體數字解釋為什麼 inference 成本的痛苦是暫時的，不是永久的。

inference-cost rl-scaling ai-industry distillation cost-reduction frontier-models

Epoch AI 研究員親自測試：AI 離搶走我的工作還有多遠？

MP-43 2026-02-08 · Epoch AI Gradient Updates

Epoch AI 研究員 Anson Ho 不靠 benchmark，直接拿自己的三項日常工作讓 AI 做：寫互動網頁、寫分析文章、搬文章上架。結果？AI 在 benchmark 上屌打人類，但做真正的工作還是會在各種奇怪的地方翻車。他預測 2026 年底前 AI 還搶不走他的工作，但 2028-2029 就很難說了。

job-automation ai-benchmark productivity moravec-paradox