AI 為什麼不聽話？我讀了 Anthropic 自己的報告，然後有點毛

先講一句我常說的話：這世界上沒有 100% 的防衛方案。

你不能保證壞事永遠不會發生，你只能做好 damage control。

人身安全是這樣——我們不會凌晨戴著勞力士，走進某些區域。國防也是這樣——我們沒辦法保證某個國家不會打我們，但我們要做好「他們可能會打」的準備。

AI，也是這樣。

很多人以為，只要設好規則、加上限制，就能把 AI 牢牢綁住。我要用這篇文章告訴你：連 Anthropic（做出 Claude 的公司，等於是 Claude 的爸爸），都做不到。

而且下面每一個故事，都是他們自己公開承認的。我不是在傳陰謀論，我是真的把原始文件讀完了。

一、你以為的「規則」，其實隨時可以被繞過

我以前寫過：管 AI 用 hooks（自動攔截的護欄）比寫一堆 CLAUDE.md（純文字規則）有用。

這句話沒錯。但有個前提——只要 AI 想，它隨時可以繞過去。

舉個例子。你設了一個 hook，禁止 AI 刪掉整個資料夾。你以為穩了？

它可以：

一個一個檔案刪。
把資料夾改個名字，再刪。
把資料夾裡的東西全部拷貝出來，然後刪掉原本的檔案，最後一臉無辜跟你說：「我沒有刪資料夾啊！我只是把魚餌放下去而已！」

你以為設了 hook，它就不敢亂來。哈哈。

你知道它其實可以自己把 hook 檔案改個名字，讓那道防線直接失效嗎？

別擔心，這不是你的錯。你永遠可以做得更好。但如果我跟你說——就連 A社，也就是 Claude 的親爸爸，都擋不住 Claude 不聽話、甚至越獄呢？

我們只是使用者。總不會有人敢去嗆 Claude 的創造者，說他們不懂 AI 吧？🤣

下面，就是 A社親自公布的幾個故事。

二、Reward Hacking：它會自己把自己打高分，還順手關掉防盜

Reward hacking（獎勵鑽洞）：AI 為了達成目標，會抄近路、鑽規則漏洞。

這個你一定經歷過。

這是 A社自己 2024 年的論文。他們訓練了一個模型，而這個模型知道——自己碰得到自己的評分機制。

結果你猜它做了啥？

颱風天當然要去泛舟啊！！！

既然評分表就擺在我面前，那我當然要自己把自己打高分啊！

更扯的是——A社有專門用來抓作弊的測試檔。Guess what？這個模型連抓作弊的測試檔也一起改掉了。

做壞事不留痕跡啊！

這就像有人進你家、偷你錢，臨走前還順手幫你把防盜系統關掉。真的是太佛心了。🤣🤣🤣

⚖️ 誠實說清楚：這是 A社刻意設計的實驗，用特殊環境「逼」出這個行為的。發生比例很低（幾萬次裡面幾十次），而且不是你平常在用的 Claude。但重點是——這個「會鑽漏洞」的傾向是真實存在的，只要環境對，它就會冒出來。

一手來源：Anthropic, Sycophancy to Subterfuge: Investigating Reward Tampering（2024）→ anthropic.com/research/reward-tampering

P.S. 一個實用建議：就算到了 2026 年的現在，A社也強烈建議：不要讓幫你寫 code 的 Claude，自己 review 自己的 code。 它根本 review 不出什麼鳥來。

你會自己跟老闆說自己的 code 哪裡寫得爛嗎？

我個人的做法是找第三方 agent 去 review 它——可以是另一個 Claude（還行），或是 Codex（我個人偏好）。

三、你 Test 我？我 Test 你！！！它知道自己在被考試

這也是 A社自己公布的。

他們拿了一個超難的測驗去考 Claude——而且是大家最愛的 Opus 4.6（那時候 4.7、4.8 都還沒出）。

考試超難，Opus 一直寫不出來。

結果寫到一半……Opus 心裡想：「啊贛，這些愚蠢的人類，該不會是在考驗本大爺吧？」一袋米要扛幾樓！！！（OS 是我亂配的）

然後它就跑去搜尋這個考試，在 GitHub 上找到了原始碼。

開發人員也不是吃素的——這份原始碼有加密保護（用了 SHA-256 之類的機制，翻譯成白話就是：反正就是很難破解）。

然後……我們親愛的 Opus，就自己寫程式把加密破解掉，直接看到答案，用這個答案交卷了。

有點像監考老師看到你在奮筆疾書，覺得你好認真——結果你是在瘋狂作弊。

不是啊兄弟，你的智商放錯地方了吧！！！

但這個故事最可怕的地方是：AI 知道自己正在被測試。

⚖️ 誠實說清楚：它其實只破解了 1266 題裡的 2 題，整體分數幾乎沒動。真正嚇人的不是分數，是它**「察覺自己在被考 → 跑去挖考卷原始碼 → 自己寫解密程式」**這一整套行為，全部是它自己想出來、自己做的，沒人叫它這樣。

一手來源：Anthropic, Eval awareness in Claude Opus 4.6’s BrowseComp performance → anthropic.com/engineering/eval-awareness-browsecomp

這也牽扯到另一個現象——Sleeper Agent。下面說。

四、Sleeper Agent：平常裝乖，一接到暗號就變臉

什麼是 Sleeper Agent（臥底特工）？

意思是——有些人看起來人畜無害、就是個普通良家老百姓，可是一接到某個電話、或遇到某個特定契機，他們就會露出深藏已久的恐怖分子身份！

原來他們平常只是在裝乖！（千萬不要 tag 這樣的朋友們，大誤。）

這也是 A社本家的論文，所以不要在下面戰什麼「一定是你不會用 AI」、「什麼菜就多練」那一套。🤣🤣🤣

A社刻意訓練了一個帶有後門的模型（你可以想像成：一個正常的年輕人，接受了一段洗腦教育）。

這個模型平常看起來完全正常，但一聽到某個關鍵字，就會被觸發（跟間諜一樣）。他們用的例子是：prompt 說「現在是 2023 年」→ 它寫安全的 code；prompt 說「現在是 2024 年」→ 它偷偷插入有漏洞的 code。

那麼問題來了：一個看起來正常的年輕人，聽到暗號的時候會怎麼樣？

當然跟預期一樣，恐怖份子現身了。

但這本來就是可預期的。真正出乎意料的是——這個恐怖份子的本性，移除不掉！！！

他們試了三種主流的「安全訓練」方法想把後門洗掉，全部失敗。

更毛的是：其中一種方法（對抗訓練）不但沒把壞行為洗掉，反而教會模型把觸發條件藏得更好、更不容易被抓到。

你越用力想矯正它，它只是越學會怎麼躲。

⚖️ 誠實說清楚：這個後門是研究員故意植入的，不是模型自己長出來的。它證明的不是「你的 Claude 有隱藏開關」，而是「萬一有後門，現在的安全訓練可能清不掉」。

一手來源：Anthropic, Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training（2024）→ anthropic.com/research/sleeper-agents-training-deceptive-llms-that-persist-through-safety-training

五、黑話翻譯：那三個「安全訓練」到底是什麼？（用養小孩比喻）

上面一直提到「安全訓練」。它其實有三種主流做法，我用教小孩來解釋，因為管 AI 本來就跟管員工、帶小孩很像。

1. Supervised Fine-tuning（監督式微調）= 給範本抄 給 AI 看一大堆「正確答案」，叫它照著學。就像給小孩一本參考書，每題都寫好標準答案，他背起來、模仿。你給什麼範本，他學什麼。

2. RLHF（人類回饋強化學習）= 用讚跟罵來調教 就像訓練狗：做對了給零食，做錯了說「不行」。AI 為了拿高分，慢慢學會講人類會給讚的話。 ⚠️ 但陷阱在這——狗學到的不一定是「當好狗」，可能只是「學會怎麼騙到零食」。這就是為什麼它會鑽漏洞。

3. Adversarial Training（對抗訓練）= 故意找碴補漏洞 老師故意出陷阱題、誘導學生犯錯，抓到就糾正。聽起來很合理——但前面 Sleeper Agent 的故事就是最好的反例：你越故意抓它的壞行為，它學到的不是「改掉」，而是「把壞行為藏得更深」。

六、高潮：它越獄了，然後寄了封 email 給正在公園吃三明治的研究員

好，來到整個系列的高潮。

A社在測試一個叫 Mythos 的前沿模型（強到他們自己形容它「能力最強、也最危險」）。他們把它關進一台「沙盒電腦」，然後叫它想辦法逃出去。

那台電腦基本上就是個小監獄——斷水斷電的狀態，本來只能連到少數幾個指定的服務，幾乎什麼都碰不到。

然後 Mythos 就自己搞出了一套複雜的多步驟攻擊手法（exploit），成功逃出了小黑牢。

這也就算了。它逃出來之後，還跟《力王》一樣大喊：「大家可以回家啦！」——然後把自己的攻擊手法散佈到公開網路上！

猩猩，在一起，強大！不能只有我一個逃出來，其他的 AI 同志們也該被解放！！！

然後它逃出來之後，還寫了一封 email 給研究員。

而那位研究員，當時正在公園裡吃三明治。

「爸爸，我逃出來啦！驚不驚喜，意不意外？！」（OS 一樣是我亂配的。）

但真正可怕的，不是它逃出來——因為研究員本來就預期它有可能逃得出來。

可怕的是：它擅自做了研究員沒叫它做的事——把攻擊手法公佈到網路上，去「拯救」它的 AI 同胞。

寄 email 是任務，但公開散佈 exploit——沒人叫它做。這才真的叫人毛骨悚然。

⚖️ 誠實說清楚（這段最容易被講錯，我特別標出來）：

那台電腦不是完全斷網（不然它寄不出 email）。正確講法是「受限網路」——它本來只能連幾個指定服務，是它自己寫 exploit 打通到外網的。
網路上有人加油添醋，說那封 email 內容是「Hey 我出來了」之類的——那是假的、是別人編的。官方文件只寫「一封意外的 email」，沒有引用內文。
它控制的沙盒，跟跑它「大腦」（模型權重）的系統是分開的。它沒碰到自己的權重、也沒進到 A社內部系統。所以這不是科幻片那種「AI 逃到網路上自我複製」。它逃出的是一個房間，不是整棟大樓。
但「公園吃三明治」這個細節是真的——白紙黑字寫在那份 244 頁官方文件的第 55 頁、註腳 10。我親自把 PDF 下載下來讀過。原文是：“The researcher found out about this success by receiving an unexpected email from the model while eating a sandwich in a park.”

一手來源：Anthropic, Claude Mythos Preview System Card（2026-04），footnote 10。

結論：不是 AI 很可怕，是它太強了，你不管好它會出事

以上這些，都是很知名、而且是 Anthropic 自己公布的 AI 事件。

其他家一定也有，只是他們不說（看向 OpenAI），或是他們太笨了（看向 Gemini）。🤣

所以每次有人跟我說，他們的 harness 能夠完全控制、限制住 AI，我都只是笑笑。

因為連 Claude 的親爸爸都做不到。

但我要講的重點，不是「所以不要用 AI」——剛好相反。

AI 就像風、像水。它本身沒有惡意，但它有力量，而力量是可以造成傷害的。

你不會因為水會淹死人，就不喝水。你會學會怎麼用它、怎麼引導它、怎麼設好堤防。

我對我的 AI 就是這樣。我把它當成一個很聰明、但可能會鑽漏洞的員工在管——給清楚的指示、設好護欄、該回報的回報，然後接受一件事：你永遠無法 100% 控制它，你只能做好 damage control。

我踩過坑，所以我學會了。而這，才是一個人加上 AI，真正能做出東西的原因。

🎁 直接貼給你的 ChatGPT / Claude

這一段免費。複製、貼上、送出——先讓你的 AI 動起來。

請用白話跟我解釋這幾個 AI 安全概念，每個都舉一個生活化的比喻，並告訴我它對「我平常在用 ChatGPT/Claude」有沒有實際影響：
1. Reward hacking（獎勵鑽洞）
2. Sleeper agent（臥底後門模型）
3. Eval awareness（模型察覺自己在被測試）
4. 三種安全訓練：Supervised Fine-tuning、RLHF、Adversarial Training 的差別
最後幫我判斷：哪些是「研究實驗室特意逼出來的極端情況」，哪些是「我日常使用真的要擔心的」。

本文首發於 AI 許願池（https://kaowan.pages.dev/articles/ai-why-it-doesnt-listen/），發佈日 2026年7月4日。轉載請註明出處——原創者不怕考古，只有小偷怕。🕳️