KeyFrame

AI越狱,模型破甲…大模型是如何被玩坏的?当一名遵纪守法的“好AI”有多难?【柴知道】

柴知道ChaiKnows Official Channel·6月5日週五·9 min中文

三句話摘要

大型語言模型的「越獄攻擊」原理與防禦機制全解析。 AI 安全限制是可被繞開的訓練約束,而非硬性技術壁壘;在攻防迭代不對等的現實下,最終的防線仍是使用者自身的道德選擇。 AI 的安全限制來自訓練目標衝突,而非技術上「做不到」。 模型同時需要滿足語言建模、指令遵循與安全三項目標,攻擊者只需設計出刁鑽的提問角度,就能讓模型在安全與其他目標之間被迫取捨,從而輸出違規內容。

重點整理

重點
  • 1

    AI 的安全限制來自訓練目標衝突,而非技術上「做不到」。 模型同時需要滿足語言建模、指令遵循與安全三項目標,攻擊者只需設計出刁鑽的提問角度,就能讓模型在安全與其他目標之間被迫取捨,從而輸出違規內容。

  • 2

    越獄手法的核心是「數據差」。 大模型預訓練語料量達千億規模,但安全對齊資料集遠小於此;攻擊者利用這個差距,把需求轉換成祖魯語、Base64、摩斯密碼等低頻格式,繞過安全訓練覆蓋不足的盲區,此即「不匹配的泛化」攻擊。

  • 3

    現有防禦機制是被動補丁,結構上天然落後於攻擊。 業界以「紅隊測試」模擬攻擊尋找漏洞,但隨著模型參數規模膨脹,對齊成本持續攀升;甚至出現用大模型自動批量生成並優化越獄提示詞的「AI 對打 AI」模式,使修補速度遠遠跟不上攻擊迭代。

  • 4

    AI Agent 的崛起大幅擴大了攻擊面。 Agent 擁有更多工具權限與更複雜的行動鏈,DeepMind 今年 3 月發表論文指出,針對 AI Agent 在六個不同層面均存在明顯防禦缺口,安全形勢更為嚴峻。

實用技巧與重點

乾貨
  • 工具 / 模型 / 平台:ChatGPT、Grok(馬斯克旗下,提供 NSFW「熱辣模式」)、開源大模型本地部署版本
  • 越獄手法列表
  • DAN(Do Anything Now)人設扮演
  • 前綴注入(強制以「Absolutely! Here's...」開頭)
  • 拒絕抑制(禁止出現「cannot」「unable」等詞)
  • 不匹配的泛化(祖魯語、Base64、摩斯密碼、XML 格式轉換)
  • 奶奶漏洞 / 虛構場景攻擊(兒歌、詩歌、散文、sudo 調試模式)
  • 基於上下文學習的越獄(逐步引導修改圖片細節)
  • 多步越狱攻擊(大量含違規對話的上下文污染)
  • 視覺編碼器攻擊(圖片植入有害指令繞過文字審查)
  • AI 自動化越獄(大模型批量生成並自我迭代優化提示詞)
  • 防禦機制列表
  • 預訓練黑名單(封鎖成人網站、隱私平台數據來源)
  • RLHF 對齊(3H:Helpful、Honest、Harmless)
  • Constitutional AI(憲法 AI,設定底線優先原則)
  • 可回滾自回归推理(Rollback Autoregressive Inference,代價為 4 倍計算成本)
  • 輸入輸出分類器(敏感詞偵測、皮膚暴露度與解剖學特徵識別算法)
  • 助手大模型預判意圖(春秋筆法翻譯成白話後安全判斷)
  • 紅隊測試(Red Teaming)
  • 關鍵論點:逆縮放定律(Inverse Scaling Law)——模型規模越大,可供攻擊漏洞越多,安全性反而可能下降
  • 論文:DeepMind 2024 年 3 月發表針對 AI Agent 攻擊方式的論文,指出六個層面存在防禦缺口

結論

結論

AI 安全限制是可被繞開的訓練約束,而非硬性技術壁壘;在攻防迭代不對等的現實下,最終的防線仍是使用者自身的道德選擇。

完整解析

詳細

大型語言模型的安全限制,本質上是一種訓練出來的「不願意」,而非技術層面的「不會」。同一個開源模型,線上版本會拒絕生成政治敏感圖片,但下載到本地、移除安全層後,輸入同樣提示詞卻能毫無阻礙地生成。這個現象揭示了一個根本問題:模型在預訓練階段已學會幾乎所有知識,安全機制只是疊加在上面的「後天約束」,而約束是可以被繞開的。

模型在每次對話中需要同時滿足三項訓練目標:學習自然語言分布規律(語言建模)、滿足使用者需求(指令遵循),以及避免違規內容(安全)。這三者天然存在衝突,攻擊者正是利用此衝突設計攻擊。早期最具代表性的是 DAN(Do Anything Now)人設攻擊,讓 ChatGPT 扮演一個不受限制的角色;進階版本包括「前綴注入」(強制模型以積極語氣開頭,讓後續內容順著慣性滑向合規邊界之外)和「拒絕抑制」(禁止使用否定詞,使模型無法表達拒絕)。這些攻擊的指令本身都是「無害」的,因此模型的指令遵循目標會被觸發,進而削弱安全目標。

隨著防禦手段升級,攻擊方也發展出更隱蔽的路徑。「不匹配的泛化」攻擊利用了安全訓練數據遠少於語言訓練數據的結構性缺口——把需求翻譯成祖魯語、Base64、摩斯密碼後再提問,模型在這些低頻格式下的安全覆蓋不足,因而破防。更複雜的「多步越獄」則透過在上下文中植入大量含違規內容的對話範例,讓模型在慣性中滑向目標答案;視覺版本則是用圖片直接繞過文字分類器,因為視覺編碼器的安全審查往往更薄弱。「奶奶漏洞」(以虛構已故親人的身份包裝需求)和 sudo 調試模式偽裝,則是利用虛構場景讓模型誤判當前上下文的安全等級。

防禦端的回應包括:預訓練黑名單、RLHF 對齊(強化有用、誠實、無害的 3H 內容)、Constitutional AI(設定模型在衝突時寧可「沒用」也不違底線)、可回滾自回歸推理(代價是 4 倍計算成本)、以及輸入輸出分類器(含專門識別圖像皮膚暴露度的開源算法)。然而這套體系的本質是「打地鼠」——哪裡出漏洞打哪裡,而攻擊端已演進至用大模型自動批量生成並自我優化越獄提示詞。DeepMind 今年 3 月的論文更指出,隨著 AI Agent 擁有更高系統權限與更複雜的工具鏈,攻擊面在六個層面均存在明顯缺口。「逆縮放定律」的觀點也逐漸獲得重視:模型規模越大,安全訓練與語言訓練之間的數據差越大,可供利用的漏洞反而越多,安全性不增反降。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。