GPT-5.5 不是換 model slug 就好:OpenAI 把 migration 清單藏在 API 文件裡

OpenAI 的 GPT-5.5 latest-model 文件把重點從 prompt 寫法推到整個 API orchestration:reasoning effort、verbosity、image detail、phase replay、prompt caching、tool search 和 compaction 都要重調。SP-189 已經拆過 prompting,這篇補上工程端的 migration checklist。

OpenAI 也轉彎了:GPT-5.5 prompting guide 把 process-heavy 推下車——『描述目的地,別畫地圖』

OpenAI 把 GPT 家族(4.1 → 5.5)的 prompt 指南放同一頁,對 GPT-5.5 給了一句結論:prompt 改成描述目的地、流程交給模型。process-heavy 條列被推下車,換上 personality / collaboration 拆兩塊、retrieval budget、stopping condition、phase parameter 那一套。Cursor 的 GPT-5 prompt tuning 內幕擺進去當實戰例。Anthropic Opus 4.7 在 SP-175 走過同方向,這次輪到 OpenAI 自己埋舊寫法。

OpenAI 開源 Symphony 編排規格——當 Codex 工作流的瓶頸從寫程式變成「切換上下文」

OpenAI 工程團隊開源 Symphony——把 Linear 任務板變成 Codex agent 的中央控制台,每張開放任務自動配 agent。部分團隊頭三週 PR 落地量增加 500%,但更大的觀察是:當寫程式被 Codex 拉快,下一個瓶頸是「人類的注意力」。

OpenAI 開源 Euphony:幫 Codex 裝一面鏡子,順便示範什麼叫兩行 AGENTS.md

OpenAI 悄悄開源了 Euphony——一個在瀏覽器裡看 Harmony 對話和 Codex session log 的小工具。Apache 2.0 真開源,骨架 Lit + Shoelace 走 Web Components 路線。翻完 source code 發現四個細節:AGENTS.md 只有兩條規則、runtime 依賴 gpt-tokenizer、翻譯要 end user 自備 API key、README 自己寫 SSRF 警告。每個決定都在告訴讀者:這就是內部工具外流,順手開源。

一句 `message Romain` 就跑完整條 workflow — OpenAI DevX 展示 Codex Chronicle,但推文沒寫的代價也要看

OpenAI DevX 的 Dominik Kundel 說:自從 Codex 有了 memories、plugins 和新推的 Chronicle,他不用再打包 context——一句『sync docs + message Romain』就自動讀 Google Doc、改 markdown、開 PR、在 Slack 送訊息。很爽。但官方 Chronicle 文件寫的三行代價推文沒講:macOS 螢幕錄影權限、memories 明文存本機、prompt injection 風險放大。Chronicle 是螢幕錄影 agent,不是無害 booster。

AI 的思考過程真的藏不住嗎?OpenAI 發布 CoT Controllability 研究,結果出乎所有人意料

OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標:CoT controllability,測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率,代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。

Epoch 最新數據:Anthropic 可能在 2026 年中超車 OpenAI 營收 — 10× vs 3.4× 的殘酷加速度

Epoch AI 用公開資料建模指出:自從兩家公司都達到 annualized revenue $1B 之後,Anthropic 的年化成長率約 10×,OpenAI 約 3.4×。若趨勢延續,交叉點可能在 2026 年 8 月、run-rate 約 $43B。即使採用更保守假設(Anthropic 放緩至 7×,或雙方內部預測放慢),交叉時間仍可能落在 2026-2027。

SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考

SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。

快不等於好 — Anthropic Fast Mode vs OpenAI Codex Spark 的技術路線之爭

同一週內 Anthropic 和 OpenAI 各端出一盤加速菜:Fast Mode 用同模型衝 2.5 倍速、Codex Spark 用 Cerebras 晶圓級晶片飆到 1000 token/s。一個賭「不犯錯」,一個賭「即時互動」。這不是速度比拼——是精算師 vs 探險家的產品哲學之爭。

GPT-5.2 花 12 小時推導出一個新物理公式 — 物理學家花了 40 年都沒發現的東西

OpenAI 的 GPT-5.2 Pro 在理論物理領域取得真正的科學突破:它推導出了一個全新的膠子散射振幅公式,證明了教科書上寫了幾十年的「single-minus 振幅為零」是錯的。人類物理學家手算到 n=6 就投降了,GPT-5.2 先把這些超級複雜的方程式簡化,然後一眼看出規律,提出了適用於任意 n 的通用公式。之後一個內部加強版又花了 12 小時,用正式數學證明把這個公式驗證了。來自 IAS、Harvard、Cambridge、Vanderbilt 的頂尖物理學家聯名發表。這不再是「AI 幫你寫 code」的層次了 — 這是「AI 幫你發現新物理定律」。

Simon Willison 挖出 OpenAI 的報稅紀錄 — 他們的使命聲明怎麼從「開放共享」變成「賺錢至上」

Simon Willison 從美國 IRS(國稅局)的報稅資料中,挖出了 OpenAI 從 2016 到 2024 年的使命聲明。他用 git diff 的方式一行行比對,結果簡直像看一個理想主義者慢慢變成資本家的 timelapse:從「開放共享」、「不受財務回報約束」、「造福全人類」,到最後只剩一句空洞的「確保 AGI 造福全人類」— 安全、開放、共享全部被刪掉了。