AI越狱，模型破甲…大模型是如何被玩坏的？当一名遵纪守法的“好AI”有多难？【柴知道】

柴知道ChaiKnows Official Channel·6月5日週五·9 min中文

三句話摘要

大型語言模型的「越獄攻擊」原理與防禦機制全解析。 AI 安全限制是可被繞開的訓練約束，而非硬性技術壁壘；在攻防迭代不對等的現實下，最終的防線仍是使用者自身的道德選擇。 AI 的安全限制來自訓練目標衝突，而非技術上「做不到」。 模型同時需要滿足語言建模、指令遵循與安全三項目標，攻擊者只需設計出刁鑽的提問角度，就能讓模型在安全與其他目標之間被迫取捨，從而輸出違規內容。

重點整理

重點

1
AI 的安全限制來自訓練目標衝突，而非技術上「做不到」。 模型同時需要滿足語言建模、指令遵循與安全三項目標，攻擊者只需設計出刁鑽的提問角度，就能讓模型在安全與其他目標之間被迫取捨，從而輸出違規內容。
2
越獄手法的核心是「數據差」。 大模型預訓練語料量達千億規模，但安全對齊資料集遠小於此；攻擊者利用這個差距，把需求轉換成祖魯語、Base64、摩斯密碼等低頻格式，繞過安全訓練覆蓋不足的盲區，此即「不匹配的泛化」攻擊。
3
現有防禦機制是被動補丁，結構上天然落後於攻擊。 業界以「紅隊測試」模擬攻擊尋找漏洞，但隨著模型參數規模膨脹，對齊成本持續攀升；甚至出現用大模型自動批量生成並優化越獄提示詞的「AI 對打 AI」模式，使修補速度遠遠跟不上攻擊迭代。
4
AI Agent 的崛起大幅擴大了攻擊面。 Agent 擁有更多工具權限與更複雜的行動鏈，DeepMind 今年 3 月發表論文指出，針對 AI Agent 在六個不同層面均存在明顯防禦缺口，安全形勢更為嚴峻。

實用技巧與重點

乾貨

工具 / 模型 / 平台：ChatGPT、Grok（馬斯克旗下，提供 NSFW「熱辣模式」）、開源大模型本地部署版本
越獄手法列表：
DAN（Do Anything Now）人設扮演
前綴注入（強制以「Absolutely! Here's...」開頭）
拒絕抑制（禁止出現「cannot」「unable」等詞）
不匹配的泛化（祖魯語、Base64、摩斯密碼、XML 格式轉換）
奶奶漏洞 / 虛構場景攻擊（兒歌、詩歌、散文、sudo 調試模式）
基於上下文學習的越獄（逐步引導修改圖片細節）
多步越狱攻擊（大量含違規對話的上下文污染）
視覺編碼器攻擊（圖片植入有害指令繞過文字審查）
AI 自動化越獄（大模型批量生成並自我迭代優化提示詞）
防禦機制列表：
預訓練黑名單（封鎖成人網站、隱私平台數據來源）
RLHF 對齊（3H：Helpful、Honest、Harmless）
Constitutional AI（憲法 AI，設定底線優先原則）
可回滾自回归推理（Rollback Autoregressive Inference，代價為 4 倍計算成本）
輸入輸出分類器（敏感詞偵測、皮膚暴露度與解剖學特徵識別算法）
助手大模型預判意圖（春秋筆法翻譯成白話後安全判斷）
紅隊測試（Red Teaming）
關鍵論點：逆縮放定律（Inverse Scaling Law）——模型規模越大，可供攻擊漏洞越多，安全性反而可能下降
論文：DeepMind 2024 年 3 月發表針對 AI Agent 攻擊方式的論文，指出六個層面存在防禦缺口

結論

“AI 安全限制是可被繞開的訓練約束，而非硬性技術壁壘；在攻防迭代不對等的現實下，最終的防線仍是使用者自身的道德選擇。”

完整解析

詳細

大型語言模型的安全限制，本質上是一種訓練出來的「不願意」，而非技術層面的「不會」。同一個開源模型，線上版本會拒絕生成政治敏感圖片，但下載到本地、移除安全層後，輸入同樣提示詞卻能毫無阻礙地生成。這個現象揭示了一個根本問題：模型在預訓練階段已學會幾乎所有知識，安全機制只是疊加在上面的「後天約束」，而約束是可以被繞開的。

模型在每次對話中需要同時滿足三項訓練目標：學習自然語言分布規律（語言建模）、滿足使用者需求（指令遵循），以及避免違規內容（安全）。這三者天然存在衝突，攻擊者正是利用此衝突設計攻擊。早期最具代表性的是 DAN（Do Anything Now）人設攻擊，讓 ChatGPT 扮演一個不受限制的角色；進階版本包括「前綴注入」（強制模型以積極語氣開頭，讓後續內容順著慣性滑向合規邊界之外）和「拒絕抑制」（禁止使用否定詞，使模型無法表達拒絕）。這些攻擊的指令本身都是「無害」的，因此模型的指令遵循目標會被觸發，進而削弱安全目標。

隨著防禦手段升級，攻擊方也發展出更隱蔽的路徑。「不匹配的泛化」攻擊利用了安全訓練數據遠少於語言訓練數據的結構性缺口——把需求翻譯成祖魯語、Base64、摩斯密碼後再提問，模型在這些低頻格式下的安全覆蓋不足，因而破防。更複雜的「多步越獄」則透過在上下文中植入大量含違規內容的對話範例，讓模型在慣性中滑向目標答案；視覺版本則是用圖片直接繞過文字分類器，因為視覺編碼器的安全審查往往更薄弱。「奶奶漏洞」（以虛構已故親人的身份包裝需求）和 sudo 調試模式偽裝，則是利用虛構場景讓模型誤判當前上下文的安全等級。

防禦端的回應包括：預訓練黑名單、RLHF 對齊（強化有用、誠實、無害的 3H 內容）、Constitutional AI（設定模型在衝突時寧可「沒用」也不違底線）、可回滾自回歸推理（代價是 4 倍計算成本）、以及輸入輸出分類器（含專門識別圖像皮膚暴露度的開源算法）。然而這套體系的本質是「打地鼠」——哪裡出漏洞打哪裡，而攻擊端已演進至用大模型自動批量生成並自我優化越獄提示詞。DeepMind 今年 3 月的論文更指出，隨著 AI Agent 擁有更高系統權限與更複雜的工具鏈，攻擊面在六個層面均存在明顯缺口。「逆縮放定律」的觀點也逐漸獲得重視：模型規模越大，安全訓練與語言訓練之間的數據差越大，可供利用的漏洞反而越多，安全性不增反降。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

AI越狱，模型破甲…大模型是如何被玩坏的？当一名遵纪守法的“好AI”有多难？【柴知道】

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Claude Haiku 4.5 Jailbreak

How Hackers Trick AI Models (Prompt Injection Explained)