AI 的思考過程真的藏不住嗎?OpenAI 發布 CoT Controllability 研究,結果出乎所有人意料

OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標:CoT controllability,測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率,代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。