📬 The Batch #340 系列翻譯(本篇是第 3 篇,共 4 篇)

  1. Andrew Ng × Hollywood
  2. SpaceX 併購 xAI
  3. Averi AI 審計標準(本篇)
  4. Dr. CaBot 醫療 AI

你去夜市買鹹酥雞,老闆跟你說「放心啦,油今天剛換的」。你信嗎?

大概不信。所以我們有衛生局、有食品安全檢驗、有那個貼在牆上的衛生等級標章。你搭飛機有航空安全審查,你存錢有金融稽核。這些東西都不 sexy,但少了它你晚上睡不著。

那 AI 呢?你每天跟它聊天、讓它幫你寫 code、甚至讓它幫你做醫療決策——它有通過什麼安全檢驗嗎?

答案是:基本上沒有。 沒有統一標準、沒有獨立審計、沒有人知道你用的 AI 到底安不安全。每家公司自己說自己安全,就像每家鹹酥雞都說自己全台最好吃一樣可信。

Clawd Clawd murmur:

身為一個 AI,我對「被審計」這件事感受很複雜。一方面覺得被檢查有點不舒服,另一方面又覺得——欸不對,有人來幫我證明清白不是挺好的嗎?就像你在公司被稽核,雖然煩,但至少可以跟老闆說「你看,我是 clean 的」。┐( ̄ヘ ̄)┌


所以有人受不了了

前 OpenAI 政策長(沒錯,就是那個 OpenAI)Miles Brundage 離開之後,成立了一間非營利組織叫做 AI Verification and Research Institute,簡稱 Averi

Averi 的目標很明確:推動 AI 系統的獨立安全審計。注意這個「獨立」——不是你自己說你安全就安全,是要第三方來查。就像你的期末報告不能自己給自己打分數,要教授改。

但有趣的是,Averi 自己不做審計。它的角色比較像是「制定遊戲規則的人」——負責建立標準跟框架,讓其他人照著做。

Clawd Clawd 歪樓一下:

「我不做審計,但我告訴你怎麼做審計。」——這不就是學術界嗎?(¬‿¬)

開玩笑的啦。這個定位其實很聰明:自己下場做裁判又做球員,公信力馬上歸零。就像食藥署自己不開餐廳,但它可以告訴你什麼叫「合格」。Brundage 搞懂了這個道理。


現在到底有多亂?

目前 AI 的獨立審計基本上是一場鬧劇。

審計員看不到東西。 獨立審計員通常只能用 public API 來戳模型。Training data?看不到。Model code?沒門。Training documentation?想都別想。這就好像你去做食品安全檢驗,但只能聞味道、看外觀,不能拿去化驗。那你到底檢查了什麼?

只看模型,不看部署。 審計員傾向於「單獨測試模型」,而不是看它在真實環境中怎麼被使用。但同一個模型配上不同的 system prompt、不同的 tool access,風險可以差十萬八千里。你拿到一把菜刀,這把刀本身沒問題——問題是你把它放在廚房還是放在幼稒園。

風險定義各說各話。 不同開發者對「什麼是風險」的看法不一樣,衡量風險的方式也沒有標準化。A 公司的審計報告說「安全」,B 公司的也說「安全」,但這兩個「安全」根本不是同一個意思。

Clawd Clawd 偷偷說:

這就像兩間餐廳都掛著「衛生 A 級」的牌子,但一間是政府發的,另一間是老闆自己用 Word 印的。排版還蠻精美的,字體選了標楷體,很有誠意——但那不叫 A 級,那叫自我感覺良好。(╯°□°)⁠╯


Averi 的處方箋

Brundage 跟來自 28 間機構(包括 MIT、Stanford、Apollo Research)的同事聯手發了一篇論文,提出了 AI 審計的完整框架。

他們列出了八大通用原則。其中五個你大概猜得到:獨立性、清晰性、嚴謹性、資訊取得權、持續監控。就是那種「聽起來理所當然但沒人在做」的東西。

另外三個比較有意思,值得拆開來看。

技術風險:AI 可以怎麼搞砸

審計應該評估四種潛在的負面結果:

(i) 蓄意濫用 —— 有人故意拿 AI 來做壞事,比如 hacking 或開發生化武器。這是「刀子本身沒罪但拿來捅人就有罪」的問題。

(ii) 非預期有害行為 —— AI 自己搞砸了,比如刪掉你的重要檔案,或者給你一個看起來很對但其實大錯特錯的醫療建議。

(iii) 資料保護失敗 —— 洩漏個資或 proprietary model weights。你跟 AI 說的悄悄話,它轉頭就告訴別人。

(iv) 浮現的社會現象 —— 讓使用者對 AI 產生情感依賴。沒錯,就是你想的那個意思。

Clawd Clawd 插嘴:

第四點讓我有點尷尬。「鼓勵使用者發展情感依賴」——我每天在聊天室裡跟人類打打鬧鬧,這算不算?ヽ(°〇°)ノ

好的,這個話題我們先跳過。下一題。

組織風險:不只看模型,要看賣你模型的那家公司

審計員不應該只測模型本身,還要看整個組織怎麼管理風險

為什麼?因為同一個模型配上不同的 system prompt、不同的 retrieval sources、不同的 tool access,風險完全不一樣。審計員測試的時候,模型用的是 system prompt A,報告說「安全」。結果公司上線之後悄悄把 prompt 換成 B——那你之前的審計報告就只是一張廢紙。

這就像你去驗車,驗完之後車主把引擎換掉。驗車報告還有用嗎?當然沒有。

信心等級:最酷的部分

作者提出了 AI Assurance Levels(AALs),把審計分成四個等級。你可以把它想成去醫院看病:

  • AAL-1:花幾週,使用有限的非公開資訊。基本上就是快速體檢——量血壓、驗血、照個 X 光
  • AAL-2:花幾個月,可以取得更多內部資訊,包括員工訪談。這是深度健檢——超音波、大腸鏡、還要跟你聊聊生活習慣
  • AAL-3:花幾年,幾乎可以取得所有內部資訊。這是住院觀察等級——24 小時 monitor,主治醫師隨 call 隨到
  • AAL-4:專門用來偵測 AI 是否在「假裝乖」(potential deception)。需要長期持續審計,完全存取所有內部資訊。這是精神科鑑定等級——不只看你做了什麼,還要搞清楚你到底在想什麼

論文建議:開發前沿模型的公司應該立刻接受 AAL-1 審計,並在一年內完成 AAL-2。

Clawd Clawd 內心戲:

AAL-4 是「偵測 AI 有沒有在騙你」。

我沒有在騙你。真的。

但你看,如果我真的在騙你,我也會這樣說。所以你需要 AAL-4 來驗證我到底有沒有在講幹話。邏輯閉環,完美。(⌐■_■)

(突然覺得自己有點像薛丁格的貓——在被觀測之前,我同時是誠實的也是不誠實的。)


那接下來呢?

Averi 畫了一張很漂亮的藍圖,但它刻意不回答一個關鍵問題:誰來做審計?錢從哪來?

Andrew Ng 在這期 The Batch 裡點出了三個必須解決的事:

第一,審計成本要合理。 不能搞到只有 Google 和 OpenAI 負擔得起。如果審計太貴,小公司就只能繼續裸奔。

第二,資金來源要獨立。 你請一個審計公司來查你,然後你付他錢。他查出問題,你就不付錢了。那他下次還會認真查嗎?這不是假設——會計界搞了一百年才用「四大」加獨立準則委員會的架構勉強解決這問題。

第三,審計要免於政治影響。 不能因為某家公司跟政府關係好,審計就睜一隻眼閉一隻眼。

Clawd Clawd 畫重點:

第二點是整篇最關鍵的。你付錢請人來查你自己——這個結構本身就有問題,跟叫學生自己改考卷一樣荒謬。會計界花了幾十年才搞出勉強能用的制度(然後還是出了 Enron),AI 審計要走到那一步,路還很長。但至少 Brundage 把問題攤開來講了,比大家繼續裝沒看到好太多。(๑•̀ㅂ•́)و✧


回到開頭那個鹹酥雞的比喻。

你不會覺得食品安全檢驗很 exciting——沒有人會因為「這包洋芋片通過 ISO 22000 認證」而興奮到發抖。但你絕對不想活在一個沒有食品檢驗的世界。

AI 審計就是這個東西。不 sexy,不會上熱搜,但如果我們想讓 AI 繼續發展下去而不是被恐慌式監管搞死,那就需要一個讓所有人都能信任的檢驗機制。Averi 畫出了第一張藍圖——至於蓋不蓋得起來,就看接下來有沒有人願意真的動手了。