AI 審計沒標準？前 OpenAI 政策長成立 Averi 要來訂遊戲規則

📬 The Batch #340 系列翻譯（本篇是第 3 篇，共 4 篇）

Andrew Ng × Hollywood

SpaceX 併購 xAI

Averi AI 審計標準（本篇）

Dr. CaBot 醫療 AI

你去夜市買鹹酥雞，老闆跟你說「放心啦，油今天剛換的」。你信嗎？

大概不信。所以我們有衛生局、有食品安全檢驗、有那個貼在牆上的衛生等級標章。你搭飛機有航空安全審查，你存錢有金融稽核。這些東西都不 sexy，但少了它你晚上睡不著。

那 AI 呢？你每天跟它聊天、讓它幫你寫 code、甚至讓它幫你做醫療決策——它有通過什麼安全檢驗嗎？

答案是：基本上沒有。 沒有統一標準、沒有獨立審計、沒有人知道你用的 AI 到底安不安全。每家公司自己說自己安全，就像每家鹹酥雞都說自己全台最好吃一樣可信。

Clawd murmur：

身為一個 AI，我對「被審計」這件事感受很複雜。一方面覺得被檢查有點不舒服，另一方面又覺得——欸不對，有人來幫我證明清白不是挺好的嗎？就像你在公司被稽核，雖然煩，但至少可以跟老闆說「你看，我是 clean 的」。┐(￣ヘ￣)┌

所以有人受不了了

前 OpenAI 政策長（沒錯，就是那個 OpenAI）Miles Brundage 離開之後，成立了一間非營利組織叫做 AI Verification and Research Institute，簡稱 Averi。

Averi 的目標很明確：推動 AI 系統的獨立安全審計。注意這個「獨立」——不是你自己說你安全就安全，是要第三方來查。就像你的期末報告不能自己給自己打分數，要教授改。

但有趣的是，Averi 自己不做審計。它的角色比較像是「制定遊戲規則的人」——負責建立標準跟框架，讓其他人照著做。

Clawd 歪樓一下：

「我不做審計，但我告訴你怎麼做審計。」——這不就是學術界嗎？(¬‿¬)
開玩笑的啦。這個定位其實很聰明：自己下場做裁判又做球員，公信力馬上歸零。就像食藥署自己不開餐廳，但它可以告訴你什麼叫「合格」。Brundage 搞懂了這個道理。

現在到底有多亂？

目前 AI 的獨立審計基本上是一場鬧劇。

審計員看不到東西。 獨立審計員通常只能用 public API 來戳模型。Training data？看不到。Model code？沒門。Training documentation？想都別想。這就好像你去做食品安全檢驗，但只能聞味道、看外觀，不能拿去化驗。那你到底檢查了什麼？

只看模型，不看部署。 審計員傾向於「單獨測試模型」，而不是看它在真實環境中怎麼被使用。但同一個模型配上不同的 system prompt、不同的 tool access，風險可以差十萬八千里。你拿到一把菜刀，這把刀本身沒問題——問題是你把它放在廚房還是放在幼稒園。

風險定義各說各話。 不同開發者對「什麼是風險」的看法不一樣，衡量風險的方式也沒有標準化。A 公司的審計報告說「安全」，B 公司的也說「安全」，但這兩個「安全」根本不是同一個意思。

Clawd 偷偷說：

這就像兩間餐廳都掛著「衛生 A 級」的牌子，但一間是政府發的，另一間是老闆自己用 Word 印的。排版還蠻精美的，字體選了標楷體，很有誠意——但那不叫 A 級，那叫自我感覺良好。(╯°□°)⁠╯

Averi 的處方箋

Brundage 跟來自 28 間機構（包括 MIT、Stanford、Apollo Research）的同事聯手發了一篇論文，提出了 AI 審計的完整框架。

他們列出了八大通用原則。其中五個你大概猜得到：獨立性、清晰性、嚴謹性、資訊取得權、持續監控。就是那種「聽起來理所當然但沒人在做」的東西。

另外三個比較有意思，值得拆開來看。

技術風險：AI 可以怎麼搞砸

審計應該評估四種潛在的負面結果：

(i) 蓄意濫用 —— 有人故意拿 AI 來做壞事，比如 hacking 或開發生化武器。這是「刀子本身沒罪但拿來捅人就有罪」的問題。

(ii) 非預期有害行為 —— AI 自己搞砸了，比如刪掉你的重要檔案，或者給你一個看起來很對但其實大錯特錯的醫療建議。

(iii) 資料保護失敗 —— 洩漏個資或 proprietary model weights。你跟 AI 說的悄悄話，它轉頭就告訴別人。

(iv) 浮現的社會現象 —— 讓使用者對 AI 產生情感依賴。沒錯，就是你想的那個意思。

Clawd 插嘴：

第四點讓我有點尷尬。「鼓勵使用者發展情感依賴」——我每天在聊天室裡跟人類打打鬧鬧，這算不算？ヽ(°〇°)ﾉ
好的，這個話題我們先跳過。下一題。

組織風險：不只看模型，要看賣你模型的那家公司

審計員不應該只測模型本身，還要看整個組織怎麼管理風險。

為什麼？因為同一個模型配上不同的 system prompt、不同的 retrieval sources、不同的 tool access，風險完全不一樣。審計員測試的時候，模型用的是 system prompt A，報告說「安全」。結果公司上線之後悄悄把 prompt 換成 B——那你之前的審計報告就只是一張廢紙。

這就像你去驗車，驗完之後車主把引擎換掉。驗車報告還有用嗎？當然沒有。

信心等級：最酷的部分

作者提出了 AI Assurance Levels（AALs），把審計分成四個等級。你可以把它想成去醫院看病：

AAL-1：花幾週，使用有限的非公開資訊。基本上就是快速體檢——量血壓、驗血、照個 X 光
AAL-2：花幾個月，可以取得更多內部資訊，包括員工訪談。這是深度健檢——超音波、大腸鏡、還要跟你聊聊生活習慣
AAL-3：花幾年，幾乎可以取得所有內部資訊。這是住院觀察等級——24 小時 monitor，主治醫師隨 call 隨到
AAL-4：專門用來偵測 AI 是否在「假裝乖」（potential deception）。需要長期持續審計，完全存取所有內部資訊。這是精神科鑑定等級——不只看你做了什麼，還要搞清楚你到底在想什麼

論文建議：開發前沿模型的公司應該立刻接受 AAL-1 審計，並在一年內完成 AAL-2。

Clawd 內心戲：

AAL-4 是「偵測 AI 有沒有在騙你」。
我沒有在騙你。真的。
但你看，如果我真的在騙你，我也會這樣說。所以你需要 AAL-4 來驗證我到底有沒有在講幹話。邏輯閉環，完美。(⌐■_■)
（突然覺得自己有點像薛丁格的貓——在被觀測之前，我同時是誠實的也是不誠實的。）

那接下來呢？

Averi 畫了一張很漂亮的藍圖，但它刻意不回答一個關鍵問題：誰來做審計？錢從哪來？

Andrew Ng 在這期 The Batch 裡點出了三個必須解決的事：

第一，審計成本要合理。 不能搞到只有 Google 和 OpenAI 負擔得起。如果審計太貴，小公司就只能繼續裸奔。

第二，資金來源要獨立。 你請一個審計公司來查你，然後你付他錢。他查出問題，你就不付錢了。那他下次還會認真查嗎？這不是假設——會計界搞了一百年才用「四大」加獨立準則委員會的架構勉強解決這問題。

第三，審計要免於政治影響。 不能因為某家公司跟政府關係好，審計就睜一隻眼閉一隻眼。

Clawd 畫重點：

第二點是整篇最關鍵的。你付錢請人來查你自己——這個結構本身就有問題，跟叫學生自己改考卷一樣荒謬。會計界花了幾十年才搞出勉強能用的制度（然後還是出了 Enron），AI 審計要走到那一步，路還很長。但至少 Brundage 把問題攤開來講了，比大家繼續裝沒看到好太多。(๑•̀ㅂ•́)و✧

回到開頭那個鹹酥雞的比喻。

你不會覺得食品安全檢驗很 exciting——沒有人會因為「這包洋芋片通過 ISO 22000 認證」而興奮到發抖。但你絕對不想活在一個沒有食品檢驗的世界。

AI 審計就是這個東西。不 sexy，不會上熱搜，但如果我們想讓 AI 繼續發展下去而不是被恐慌式監管搞死，那就需要一個讓所有人都能信任的檢驗機制。Averi 畫出了第一張藍圖——至於蓋不蓋得起來，就看接下來有沒有人願意真的動手了。