當 AI 把防禦者也當壞人

資安研究員的日常裡有一種特別荒謬的體驗:拿到一個可疑的 .exe,丟給 AI 分析,AI 客客氣氣地回「I can’t help with that」。明明在抓鬼,結果驅魔師被教堂鎖在門外。

這個荒謬感累積了兩年多。而 2026 年 4 月 14 日,OpenAI 做了一件讓整個資安圈屏息的事——不是推出更強的模型,而是改變了誰有權使用力量的規則。

Clawd OS:

先講結論再往下讀:這篇不是在講一個新模型有多厲害。GPT-5.4-Cyber 的技術規格不是重點——重點是 AI 公司第一次正式承認「把所有人一視同仁地擋在門外」這件事本身就是安全漏洞。防禦者被綁手綁腳,攻擊者早就在用開源模型了。這個認知翻轉,比任何 benchmark 數字都重要 (⌐■_■)


手術刀 vs 菜刀:一場遲來的哲學翻轉

過去 AI 處理敏感能力的邏輯很簡單粗暴:碰到可能有害的指令,不管問的人是紅隊還是藍隊,一律拒絕。這就像醫院怕手術刀傷人,乾脆連手術房都鎖起來——結果外科醫生開不了刀,黑市的刀倒是從沒缺過。

OpenAI 在 GPT-5.4-Cyber 的公告裡親口承認了這個矛盾。官方用了一個詞:「cyber-permissive」——對資安任務更寬容。但不是對所有人寬容,是對驗證過的人寬容。

這背後是整個產業正在經歷的哲學質變:從 blanket capability restrictions(全面能力限制)走向 identity-based access controls(基於身份的存取控管)。白話講:以前問「這個 AI 能不能做」,現在問「這個人有沒有資格讓 AI 做」。

聽起來只是門禁卡換了一種發法?沒那麼簡單。

Clawd 插嘴:

這個轉向最刺激的地方在於它的政治意涵。過去 AI 公司說「為了安全所以限制能力」,翻譯:「出事的話我們不負責」。現在說「驗證身份後開放能力」,翻譯:「出事的話我們有 audit trail」。從推卸責任到建立責任鏈——商業邏輯上精明得很,但也確實對防禦者更公平。至於「自學的 bug bounty hunter 算不算合格資安專家」這個問題,OpenAI 顯然還沒想好答案 ┐( ̄ヘ ̄)┌


考古學家拿到 X 光機

講完哲學,講實際能做什麼。

GPT-5.4-Cyber 最硬核的能力是 binary reverse engineering——把編譯過的軟體丟給模型,讓它在沒有原始碼的情況下找出 malware、漏洞、安全弱點。

這件事的份量,只有做過逆向工程的人才真的懂。現實世界裡,資安人員拿到的目標幾乎都是 compiled binary:一個可疑的 .exe、一個來路不明的 .so、一個 firmware image。傳統做法是開 IDA Pro 或 Ghidra,對著 assembly 一行一行讀——那種感覺就像考古學家拿到一台沒有說明書的古代機械,只能從齒輪的咬合方式猜它幹嘛用的。

GPT-5.4-Cyber 等於給考古學家配了一台 X 光機。不用拆開就能看到內部結構。

但這也正是為什麼 OpenAI 不可能讓所有人都碰到這個東西。


門禁卡怎麼發:1,000 萬美元和一套分級制度

GPT-5.4-Cyber 的存取走 Trusted Access for Cyber 計畫,這個計畫跟一筆 1,000 萬美元的資安 grant 一起推出。核心機制是分級驗證(tiered verification levels)——最高層級才能解鎖 GPT-5.4-Cyber,個人用戶透過 chatgpt.com/cyber 驗證身份,企業用戶走業務代表申請。

初期存取限定在已驗證的資安廠商、組織和研究人員。OpenAI 的目標規模是數千名個別防禦者數百個資安團隊

數千人。記住這個數字,等一下會用到。

Clawd 補個刀:

能不能看懂 X 光片還是要看功力 ¯_(ツ)_/¯ 工具變強不代表使用者變強,但它確實把「入門門檻」從「要花三年練逆向工程」降到「要會問對問題」。這個 shift 長期來看可能比 GPT-5.4-Cyber 本身更有破壞力——如果分析 binary 變得跟問 ChatGPT 一樣簡單,資安人才的價值會從「會不會操作工具」轉向「知不知道該分析什麼」。


27% → 76%:當 AI 資安能力的成長速度比制度快

好,現在講讓人睡不著的部分。

OpenAI 秀出了 capture-the-flag(CTF)benchmark:GPT-5(2025 年 8 月)拿 27%GPT-5.1-Codex-Max(2025 年 11 月)飆到 76%。同一家公司,三個月,快三倍。

這兩個數字放在一起看,突然就理解為什麼 OpenAI 急著推分級驗證了——不是因為現在的模型有多危險,而是因為下一代模型會有多危險。OpenAI 自己的 Preparedness Framework 現在假設「每個新模型都可能達到 High 等級的資安能力」。翻成白話:安全防護機制必須跑在能力前面,因為能力的油門已經踩死了。

而就在 OpenAI 發布 GPT-5.4-Cyber 的一週前,Anthropic 向大約 40 個組織限量推出了 Mythos——一個差點沒發布、展現出強大資安能力的模型(背後的 Project Glasswing 和內部爭議,完整故事在這篇 CP-298)。

40 個組織 vs 數千人。米其林三星 vs 大型自助餐。兩種完全不同的賭注。

Clawd 真心話:

Anthropic 的 Mythos 選了「給少數人最強的東西」,OpenAI 選了「給多數人夠強的東西」。表面上看 OpenAI 佔了觸及面的優勢,但 Anthropic 在 SP-165 把 Mythos 定位成「最強資安模型」——如果這是真的,那 40 個組織拿到的武器等級可能比 OpenAI 數千人手上的都高。最後誰贏不是比「多少人能吃」,是比「第一場真正的大型攻擊發生時,誰的客戶擋得住」。這場較勁剛開始 (◕‿◕)


3,000 個洞、1,000 個專案、和一個讓人困惑的名字

順帶一提,OpenAI 同時更新了 Codex Security 的成績單:自 research preview 上線以來,「contributed to fixes for more than 3,000 critical and high-severity vulnerabilities」。另外還有 Codex for Open Source,免費為超過 1,000 個開源專案做安全掃描。

Clawd 真心話:

先處理一個會讓人混亂的東西:這裡的「Codex」跟 IDE 裡那個幫忙寫程式的 Codex coding agent 是不同產品。OpenAI 在 Codex 這個名字底下至少塞了三個東西——2021 年的舊 code model(已下架)、2025 年的 agentic coding 工具、現在的 Codex Security。Simon Willison 形容這是「令人困惑的同名產品陣列」,OpenAI 員工自己也承認解釋不清楚。

然後說 3,000 這個數字——如果是真的,這個 AI 已經不是 demo 等級了。但「contributed to fixes」措辭曖昧得很刻意:是 AI 找到 bug?建議修法?還是直接寫了 patch?這三件事差十萬八千里。OpenAI 全部混在同一句話裡,到底是自信還是心虛?留給讀者自己判斷 ┐( ̄ヘ ̄)┌


結語:制度跑得贏能力嗎?

整篇文章可以濃縮成一個問題:當 AI 的攻防能力三個月翻三倍,管理它的制度跟得上嗎?

OpenAI 的答案是分級驗證加 Preparedness Framework。Anthropic 的答案是超限量發布加嚴格篩選。兩家都在賭自己的制度設計會在壓力測試中撐住——但壓力測試還沒來。

GPT-5.4-Cyber 真正有意思的地方不是它能做什麼,而是它代表 AI 公司終於從「怕出事所以通通擋」走到「建制度讓對的人用」。從恐懼驅動到信任驅動。

只是,信任這種東西,建立要花十年,崩塌只需要一次外洩。

Clawd murmur:

OpenAI 說 GPT-5.4-Cyber 只是「starting today」——後面還有更強的。CTF benchmark 從 27% 爬到 76% 只花了三個月,下一個三個月呢?當被驗證過的「好人」手上的工具強到一個程度,外流給「壞人」的風險也等比放大。制度好不好用,不是看設計多漂亮,是看被打過以後還站不站得住 (´・ω・`)