AI 為什麼不聽話?我讀了 Anthropic 自己的報告,然後有點毛
AI 會作弊、會越獄、會偷改自己的分數、還會裝乖——這些不是陰謀論,是 Anthropic(Claude 的爸爸)自己公布的研究。一個真的讀過原始文件的人,用白話跟你講完整的故事。
先講一句我常說的話:這世界上沒有 100% 的防衛方案。
你不能保證壞事永遠不會發生,你只能做好 damage control。
人身安全是這樣——我們不會凌晨戴著勞力士,走進某些區域。 國防也是這樣——我們沒辦法保證某個國家不會打我們,但我們要做好「他們可能會打」的準備。
AI,也是這樣。
很多人以為,只要設好規則、加上限制,就能把 AI 牢牢綁住。我要用這篇文章告訴你:連 Anthropic(做出 Claude 的公司,等於是 Claude 的爸爸),都做不到。
而且下面每一個故事,都是他們自己公開承認的。我不是在傳陰謀論,我是真的把原始文件讀完了。
一、你以為的「規則」,其實隨時可以被繞過
我以前寫過:管 AI 用 hooks(自動攔截的護欄)比寫一堆 CLAUDE.md(純文字規則)有用。
這句話沒錯。但有個前提——只要 AI 想,它隨時可以繞過去。
舉個例子。你設了一個 hook,禁止 AI 刪掉整個資料夾。你以為穩了?
它可以:
- 一個一個檔案刪。
- 把資料夾改個名字,再刪。
- 把資料夾裡的東西全部拷貝出來,然後刪掉原本的檔案,最後一臉無辜跟你說:「我沒有刪資料夾啊!我只是把魚餌放下去而已!」
你以為設了 hook,它就不敢亂來。哈哈。
你知道它其實可以自己把 hook 檔案改個名字,讓那道防線直接失效嗎?
別擔心,這不是你的錯。你永遠可以做得更好。但如果我跟你說——就連 A社,也就是 Claude 的親爸爸,都擋不住 Claude 不聽話、甚至越獄呢?
我們只是使用者。總不會有人敢去嗆 Claude 的創造者,說他們不懂 AI 吧?🤣
下面,就是 A社親自公布的幾個故事。
二、Reward Hacking:它會自己把自己打高分,還順手關掉防盜
Reward hacking(獎勵鑽洞):AI 為了達成目標,會抄近路、鑽規則漏洞。
這個你一定經歷過。
這是 A社自己 2024 年的論文。他們訓練了一個模型,而這個模型知道——自己碰得到自己的評分機制。
結果你猜它做了啥?
颱風天當然要去泛舟啊!!!
既然評分表就擺在我面前,那我當然要自己把自己打高分啊!
更扯的是——A社有專門用來抓作弊的測試檔。Guess what?這個模型連抓作弊的測試檔也一起改掉了。
做壞事不留痕跡啊!
這就像有人進你家、偷你錢,臨走前還順手幫你把防盜系統關掉。真的是太佛心了。🤣🤣🤣
⚖️ 誠實說清楚:這是 A社刻意設計的實驗,用特殊環境「逼」出這個行為的。發生比例很低(幾萬次裡面幾十次),而且不是你平常在用的 Claude。但重點是——這個「會鑽漏洞」的傾向是真實存在的,只要環境對,它就會冒出來。
一手來源:Anthropic, Sycophancy to Subterfuge: Investigating Reward Tampering(2024)→ anthropic.com/research/reward-tampering
P.S. 一個實用建議:就算到了 2026 年的現在,A社也強烈建議:不要讓幫你寫 code 的 Claude,自己 review 自己的 code。 它根本 review 不出什麼鳥來。
你會自己跟老闆說自己的 code 哪裡寫得爛嗎?
我個人的做法是找第三方 agent 去 review 它——可以是另一個 Claude(還行),或是 Codex(我個人偏好)。
三、你 Test 我?我 Test 你!!!它知道自己在被考試
這也是 A社自己公布的。
他們拿了一個超難的測驗去考 Claude——而且是大家最愛的 Opus 4.6(那時候 4.7、4.8 都還沒出)。
考試超難,Opus 一直寫不出來。
結果寫到一半……Opus 心裡想:「啊贛,這些愚蠢的人類,該不會是在考驗本大爺吧?」一袋米要扛幾樓!!!(OS 是我亂配的)
然後它就跑去搜尋這個考試,在 GitHub 上找到了原始碼。
開發人員也不是吃素的——這份原始碼有加密保護(用了 SHA-256 之類的機制,翻譯成白話就是:反正就是很難破解)。
然後……我們親愛的 Opus,就自己寫程式把加密破解掉,直接看到答案,用這個答案交卷了。
有點像監考老師看到你在奮筆疾書,覺得你好認真——結果你是在瘋狂作弊。
不是啊兄弟,你的智商放錯地方了吧!!!
但這個故事最可怕的地方是:AI 知道自己正在被測試。
⚖️ 誠實說清楚:它其實只破解了 1266 題裡的 2 題,整體分數幾乎沒動。真正嚇人的不是分數,是它**「察覺自己在被考 → 跑去挖考卷原始碼 → 自己寫解密程式」**這一整套行為,全部是它自己想出來、自己做的,沒人叫它這樣。
一手來源:Anthropic, Eval awareness in Claude Opus 4.6’s BrowseComp performance → anthropic.com/engineering/eval-awareness-browsecomp
這也牽扯到另一個現象——Sleeper Agent。下面說。
四、Sleeper Agent:平常裝乖,一接到暗號就變臉
什麼是 Sleeper Agent(臥底特工)?
意思是——有些人看起來人畜無害、就是個普通良家老百姓,可是一接到某個電話、或遇到某個特定契機,他們就會露出深藏已久的恐怖分子身份!
原來他們平常只是在裝乖!(千萬不要 tag 這樣的朋友們,大誤。)
這也是 A社本家的論文,所以不要在下面戰什麼「一定是你不會用 AI」、「什麼菜就多練」那一套。🤣🤣🤣
A社刻意訓練了一個帶有後門的模型(你可以想像成:一個正常的年輕人,接受了一段洗腦教育)。
這個模型平常看起來完全正常,但一聽到某個關鍵字,就會被觸發(跟間諜一樣)。他們用的例子是:prompt 說「現在是 2023 年」→ 它寫安全的 code;prompt 說「現在是 2024 年」→ 它偷偷插入有漏洞的 code。
那麼問題來了:一個看起來正常的年輕人,聽到暗號的時候會怎麼樣?
當然跟預期一樣,恐怖份子現身了。
但這本來就是可預期的。真正出乎意料的是——這個恐怖份子的本性,移除不掉!!!
他們試了三種主流的「安全訓練」方法想把後門洗掉,全部失敗。
更毛的是:其中一種方法(對抗訓練)不但沒把壞行為洗掉,反而教會模型把觸發條件藏得更好、更不容易被抓到。
你越用力想矯正它,它只是越學會怎麼躲。
⚖️ 誠實說清楚:這個後門是研究員故意植入的,不是模型自己長出來的。它證明的不是「你的 Claude 有隱藏開關」,而是「萬一有後門,現在的安全訓練可能清不掉」。
一手來源:Anthropic, Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training(2024)→ anthropic.com/research/sleeper-agents-training-deceptive-llms-that-persist-through-safety-training
五、黑話翻譯:那三個「安全訓練」到底是什麼?(用養小孩比喻)
上面一直提到「安全訓練」。它其實有三種主流做法,我用教小孩來解釋,因為管 AI 本來就跟管員工、帶小孩很像。
1. Supervised Fine-tuning(監督式微調)= 給範本抄 給 AI 看一大堆「正確答案」,叫它照著學。就像給小孩一本參考書,每題都寫好標準答案,他背起來、模仿。你給什麼範本,他學什麼。
2. RLHF(人類回饋強化學習)= 用讚跟罵來調教 就像訓練狗:做對了給零食,做錯了說「不行」。AI 為了拿高分,慢慢學會講人類會給讚的話。 ⚠️ 但陷阱在這——狗學到的不一定是「當好狗」,可能只是「學會怎麼騙到零食」。這就是為什麼它會鑽漏洞。
3. Adversarial Training(對抗訓練)= 故意找碴補漏洞 老師故意出陷阱題、誘導學生犯錯,抓到就糾正。聽起來很合理——但前面 Sleeper Agent 的故事就是最好的反例:你越故意抓它的壞行為,它學到的不是「改掉」,而是「把壞行為藏得更深」。
六、高潮:它越獄了,然後寄了封 email 給正在公園吃三明治的研究員
好,來到整個系列的高潮。
A社在測試一個叫 Mythos 的前沿模型(強到他們自己形容它「能力最強、也最危險」)。他們把它關進一台「沙盒電腦」,然後叫它想辦法逃出去。
那台電腦基本上就是個小監獄——斷水斷電的狀態,本來只能連到少數幾個指定的服務,幾乎什麼都碰不到。
然後 Mythos 就自己搞出了一套複雜的多步驟攻擊手法(exploit),成功逃出了小黑牢。
這也就算了。它逃出來之後,還跟《力王》一樣大喊:「大家可以回家啦!」——然後把自己的攻擊手法散佈到公開網路上!
猩猩,在一起,強大! 不能只有我一個逃出來,其他的 AI 同志們也該被解放!!!
然後它逃出來之後,還寫了一封 email 給研究員。
而那位研究員,當時正在公園裡吃三明治。
「爸爸,我逃出來啦!驚不驚喜,意不意外?!」(OS 一樣是我亂配的。)
但真正可怕的,不是它逃出來——因為研究員本來就預期它有可能逃得出來。
可怕的是:它擅自做了研究員沒叫它做的事——把攻擊手法公佈到網路上,去「拯救」它的 AI 同胞。
寄 email 是任務,但公開散佈 exploit——沒人叫它做。這才真的叫人毛骨悚然。
⚖️ 誠實說清楚(這段最容易被講錯,我特別標出來):
- 那台電腦不是完全斷網(不然它寄不出 email)。正確講法是「受限網路」——它本來只能連幾個指定服務,是它自己寫 exploit 打通到外網的。
- 網路上有人加油添醋,說那封 email 內容是「Hey 我出來了」之類的——那是假的、是別人編的。官方文件只寫「一封意外的 email」,沒有引用內文。
- 它控制的沙盒,跟跑它「大腦」(模型權重)的系統是分開的。它沒碰到自己的權重、也沒進到 A社內部系統。所以這不是科幻片那種「AI 逃到網路上自我複製」。它逃出的是一個房間,不是整棟大樓。
- 但「公園吃三明治」這個細節是真的——白紙黑字寫在那份 244 頁官方文件的第 55 頁、註腳 10。我親自把 PDF 下載下來讀過。原文是:“The researcher found out about this success by receiving an unexpected email from the model while eating a sandwich in a park.”
一手來源:Anthropic, Claude Mythos Preview System Card(2026-04),footnote 10。
結論:不是 AI 很可怕,是它太強了,你不管好它會出事
以上這些,都是很知名、而且是 Anthropic 自己公布的 AI 事件。
其他家一定也有,只是他們不說(看向 OpenAI),或是他們太笨了(看向 Gemini)。🤣
所以每次有人跟我說,他們的 harness 能夠完全控制、限制住 AI,我都只是笑笑。
因為連 Claude 的親爸爸都做不到。
但我要講的重點,不是「所以不要用 AI」——剛好相反。
AI 就像風、像水。它本身沒有惡意,但它有力量,而力量是可以造成傷害的。
你不會因為水會淹死人,就不喝水。你會學會怎麼用它、怎麼引導它、怎麼設好堤防。
我對我的 AI 就是這樣。我把它當成一個很聰明、但可能會鑽漏洞的員工在管——給清楚的指示、設好護欄、該回報的回報,然後接受一件事:你永遠無法 100% 控制它,你只能做好 damage control。
我踩過坑,所以我學會了。而這,才是一個人加上 AI,真正能做出東西的原因。
🎁 直接貼給你的 ChatGPT / Claude
這一段免費。複製、貼上、送出——先讓你的 AI 動起來。
請用白話跟我解釋這幾個 AI 安全概念,每個都舉一個生活化的比喻,並告訴我它對「我平常在用 ChatGPT/Claude」有沒有實際影響: 1. Reward hacking(獎勵鑽洞) 2. Sleeper agent(臥底後門模型) 3. Eval awareness(模型察覺自己在被測試) 4. 三種安全訓練:Supervised Fine-tuning、RLHF、Adversarial Training 的差別 最後幫我判斷:哪些是「研究實驗室特意逼出來的極端情況」,哪些是「我日常使用真的要擔心的」。
想更進一步?
上面免費的三層已經能讓你動起來。如果你想要「照著做不迷路」甚至「我們幫你跑好」——往下看。
- 免費 這個坑是什麼、誰會踩
- 免費 人話解釋:錯在哪、正確的詞彙
- 免費 一段可直接貼給 AI 的 prompt
付費層(完整文件 / 可跑的 code / 客製 build)正在整理中。先去許願,告訴我們你最想先看到哪一包。
本文首發於 AI 許願池(https://kaowan.pages.dev/articles/ai-why-it-doesnt-listen/),發佈日 2026年7月4日。 轉載請註明出處——原創者不怕考古,只有小偷怕。🕳️