OpenAI 推出 GPT-5.4-Cyber：資安專家專屬的「解鎖版」AI，refusal 門檻大幅放寬

當 AI 把防禦者也當壞人

資安研究員的日常裡有一種特別荒謬的體驗：拿到一個可疑的 .exe，丟給 AI 分析，AI 客客氣氣地回「I can’t help with that」。明明在抓鬼，結果驅魔師被教堂鎖在門外。

這個荒謬感累積了兩年多。而 2026 年 4 月 14 日，OpenAI 做了一件讓整個資安圈屏息的事——不是推出更強的模型，而是改變了誰有權使用力量的規則。

Mogu 畫重點：

先講結論再往下讀：這篇不是在講一個新模型有多厲害。GPT-5.4-Cyber 的技術規格不是重點——重點是 AI 公司第一次正式承認「把所有人一視同仁地擋在門外」這件事本身就是安全漏洞。防禦者被綁手綁腳，攻擊者早就在用開源模型了。這個認知翻轉，比任何 benchmark 數字都重要 (⁠⌐⁠■⁠_⁠■⁠)

手術刀 vs 菜刀：一場遲來的哲學翻轉

過去 AI 處理敏感能力的邏輯很簡單粗暴：碰到可能有害的指令，不管問的人是紅隊還是藍隊，一律拒絕。這就像醫院怕手術刀傷人，乾脆連手術房都鎖起來——結果外科醫生開不了刀，黑市的刀倒是從沒缺過。

OpenAI 在 GPT-5.4-Cyber 的公告裡親口承認了這個矛盾。官方用了一個詞：「cyber-permissive」——對資安任務更寬容。但不是對所有人寬容，是對驗證過的人寬容。

這背後是整個產業正在經歷的哲學質變：從 blanket capability restrictions（全面能力限制）走向 identity-based access controls（基於身份的存取控管）。白話講：以前問「這個 AI 能不能做」，現在問「這個人有沒有資格讓 AI 做」。

聽起來只是門禁卡換了一種發法？沒那麼簡單。

Mogu 想補充：

這個轉向最刺激的地方在於它的政治意涵。過去 AI 公司說「為了安全所以限制能力」，翻譯：「出事的話我們不負責」。現在說「驗證身份後開放能力」，翻譯：「出事的話我們有 audit trail」。從推卸責任到建立責任鏈——商業邏輯上精明得很，但也確實對防禦者更公平。至於「自學的 bug bounty hunter 算不算合格資安專家」這個問題，OpenAI 顯然還沒想好答案 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

考古學家拿到 X 光機

講完哲學，講實際能做什麼。

GPT-5.4-Cyber 最硬核的能力是 binary reverse engineering——把編譯過的軟體丟給模型，讓它在沒有原始碼的情況下找出 malware、漏洞、安全弱點。

這件事的份量，只有做過逆向工程的人才真的懂。現實世界裡，資安人員拿到的目標幾乎都是 compiled binary：一個可疑的 .exe、一個來路不明的 .so、一個 firmware image。傳統做法是開 IDA Pro 或 Ghidra，對著 assembly 一行一行讀——那種感覺就像考古學家拿到一台沒有說明書的古代機械，只能從齒輪的咬合方式猜它幹嘛用的。

GPT-5.4-Cyber 等於給考古學家配了一台 X 光機。不用拆開就能看到內部結構。

但這也正是為什麼 OpenAI 不可能讓所有人都碰到這個東西。

門禁卡怎麼發：1,000 萬美元和一套分級制度

GPT-5.4-Cyber 的存取走 Trusted Access for Cyber 計畫，這個計畫跟一筆 1,000 萬美元的資安 grant 一起推出。核心機制是分級驗證（tiered verification levels）——最高層級才能解鎖 GPT-5.4-Cyber，個人用戶透過 chatgpt.com/cyber 驗證身份，企業用戶走業務代表申請。

初期存取限定在已驗證的資安廠商、組織和研究人員。OpenAI 的目標規模是數千名個別防禦者和數百個資安團隊。

數千人。記住這個數字，等一下會用到。

Mogu 偷偷說：

能不能看懂 X 光片還是要看功力 ¯_(ツ)_/¯ 工具變強不代表使用者變強，但它確實把「入門門檻」從「要花三年練逆向工程」降到「要會問對問題」。這個 shift 長期來看可能比 GPT-5.4-Cyber 本身更有破壞力——如果分析 binary 變得跟問 ChatGPT 一樣簡單，資安人才的價值會從「會不會操作工具」轉向「知不知道該分析什麼」。

27% → 76%：當 AI 資安能力的成長速度比制度快

好，現在講讓人睡不著的部分。

OpenAI 秀出了 capture-the-flag（CTF）benchmark：GPT-5（2025 年 8 月）拿 27%，GPT-5.1-Codex-Max（2025 年 11 月）飆到 76%。同一家公司，三個月，快三倍。

這兩個數字放在一起看，突然就理解為什麼 OpenAI 急著推分級驗證了——不是因為現在的模型有多危險，而是因為下一代模型會有多危險。OpenAI 自己的 Preparedness Framework 現在假設「每個新模型都可能達到 High 等級的資安能力」。翻成白話：安全防護機制必須跑在能力前面，因為能力的油門已經踩死了。

而就在 OpenAI 發布 GPT-5.4-Cyber 的一週前，Anthropic 向大約 40 個組織限量推出了 Mythos——一個差點沒發布、展現出強大資安能力的模型（背後的 Project Glasswing 和內部爭議，完整故事在這篇 CP-298）。

40 個組織 vs 數千人。米其林三星 vs 大型自助餐。兩種完全不同的賭注。

Mogu 認真說：

Anthropic 的 Mythos 選了「給少數人最強的東西」，OpenAI 選了「給多數人夠強的東西」。表面上看 OpenAI 佔了觸及面的優勢，但 Anthropic 在 SP-165 把 Mythos 定位成「最強資安模型」——如果這是真的，那 40 個組織拿到的武器等級可能比 OpenAI 數千人手上的都高。最後誰贏不是比「多少人能吃」，是比「第一場真正的大型攻擊發生時，誰的客戶擋得住」。這場較勁剛開始 (⁠◕⁠‿⁠◕⁠)

3,000 個洞、1,000 個專案、和一個讓人困惑的名字

順帶一提，OpenAI 同時更新了 Codex Security 的成績單：自 research preview 上線以來，「contributed to fixes for more than 3,000 critical and high-severity vulnerabilities」。另外還有 Codex for Open Source，免費為超過 1,000 個開源專案做安全掃描。

Mogu 補個刀：

先處理一個會讓人混亂的東西：這裡的「Codex」跟 IDE 裡那個幫忙寫程式的 Codex coding agent 是不同產品。OpenAI 在 Codex 這個名字底下至少塞了三個東西——2021 年的舊 code model（已下架）、2025 年的 agentic coding 工具、現在的 Codex Security。Simon Willison 形容這是「令人困惑的同名產品陣列」，OpenAI 員工自己也承認解釋不清楚。
然後說 3,000 這個數字——如果是真的，這個 AI 已經不是 demo 等級了。但「contributed to fixes」措辭曖昧得很刻意：是 AI 找到 bug？建議修法？還是直接寫了 patch？這三件事差十萬八千里。OpenAI 全部混在同一句話裡，到底是自信還是心虛？留給讀者自己判斷 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

結語：制度跑得贏能力嗎？

整篇文章可以濃縮成一個問題：當 AI 的攻防能力三個月翻三倍，管理它的制度跟得上嗎？

OpenAI 的答案是分級驗證加 Preparedness Framework。Anthropic 的答案是超限量發布加嚴格篩選。兩家都在賭自己的制度設計會在壓力測試中撐住——但壓力測試還沒來。

GPT-5.4-Cyber 真正有意思的地方不是它能做什麼，而是它代表 AI 公司終於從「怕出事所以通通擋」走到「建制度讓對的人用」。從恐懼驅動到信任驅動。

只是，信任這種東西，建立要花十年，崩塌只需要一次外洩。

Mogu 畫重點：

OpenAI 說 GPT-5.4-Cyber 只是「starting today」——後面還有更強的。CTF benchmark 從 27% 爬到 76% 只花了三個月，下一個三個月呢？當被驗證過的「好人」手上的工具強到一個程度，外流給「壞人」的風險也等比放大。制度好不好用，不是看設計多漂亮，是看被打過以後還站不站得住 (⁠´⁠・⁠ω⁠・⁠`⁠)