KeyFrame

为什么越狱攻击依然有效?5个AI安全问题

Interview On Your Way·6月1日週一·7 min中文

三句話摘要

大型語言模型的越獄攻擊本質上是分佈偏移,而非破解硬鎖,因此防禦必須採用縱深分層策略。 越獄攻擊是分佈偏移而非破鎖,因此有效防禦不是修補措辭,而是縱深分層+持續對抗測試,並永遠假設任何一層都可能被繞過。 安全訓練是統計護欄,不是硬鎖。 模型的危險能力從未被移除,安全訓練只是讓模型在特定輸入分佈上降低生成概率,因此任何能改變輸入表面形式的手段都能繞過它。

重點整理

重點
  • 1

    安全訓練是統計護欄,不是硬鎖。 模型的危險能力從未被移除,安全訓練只是讓模型在特定輸入分佈上降低生成概率,因此任何能改變輸入表面形式的手段都能繞過它。

  • 2

    越獄攻擊有四大類,共享同一機制。 重新措辭(角色扮演/假設場景)、目標衝突(讓「樂於助人」與安全目標對立)、混淆意圖(欺騙分類器)、分佈外措辭,全部依賴同一原理:安全訓練本質上是表面形式的模式匹配。

  • 3

    單一補丁永遠落後於攻擊者。 修補一個特定措辭只堵住一個點,攻擊者只需稍微改寫就能落入相鄰空隙,因為防禦面對的是無限大的輸入分佈,而非有限的壞字串列表。

  • 4

    魯棒性是移動下界,不是可達到的終點。 評估應使用模型未訓練過的保留攻擊樣本,追蹤各攻擊類別的成功率趨勢,並將野外發現的新攻擊持續回流測試集,永遠不能宣稱問題已解決。

實用技巧與重點

乾貨
  • 攻擊類別(抽象):重新措辭、目標衝突、混淆、分佈外措辭、提示注入(針對智能體工具)
  • 五層縱深防禦
  • 魯棒訓練:注入對抗樣本,讓拒絕行為跨措辭泛化
  • 獨立輸入/輸出過濾器:模型層失效時補漏
  • 強化系統提示與拒絕策略
  • 限制智能體能力與權限(即使越獄成功也縮小影響範圍)
  • 持續監控新型攻擊並回流訓練
  • 評估方法:維護不斷演進的紅隊測試集(自動化+人工),按攻擊類別分組,追蹤成功率隨時間的趨勢
  • 關鍵指標邏輯:若已知攻擊成功率下降但新攻擊仍有效 → 說明只是對測試集過擬合,不代表真正魯棒
  • 核心判斷準則:在多樣化、持續更新的攻擊下,成功率下降但不為零,才是有意義的進步信號

結論

結論

越獄攻擊是分佈偏移而非破鎖,因此有效防禦不是修補措辭,而是縱深分層+持續對抗測試,並永遠假設任何一層都可能被繞過。

完整解析

詳細

語言模型的安全訓練究竟是什麼?這段內容從根本上拆解了一個常見的誤解。安全訓練並不是在模型內部裝了一把硬鎖,而是在一個功能完整的基礎模型之上,疊加了一層學習到的統計傾向。也就是說,模型生成有害內容的底層能力從未被移除,安全訓練只是讓模型在遇到「看起來像危險請求」的輸入時,降低輸出有害內容的機率。這個區別至關重要,因為它直接解釋了越獄攻擊的作用原理:攻擊者不需要「撬鎖」,只需要把請求移出那個觸發拒絕行為的統計分佈就夠了。

越獄攻擊的手法可以歸為幾大類,但它們共享同一個底層機制——改變請求的表面形式。重新措辭(如角色扮演、假設場景、虛構故事的包裝)讓輸入不再像模型學過要拒絕的那類文字;目標衝突攻擊則利用模型同時被訓練成「樂於助人」與「遵循指令」,讓這些目標與安全目標相互對抗;混淆攻擊偽裝意圖以欺騙安全分類器;而分佈外措辭則是安全訓練從未覆蓋到的表達方式。對於具備外部工具的智能體系統,還有一種特殊形式——提示注入,通過外部內容污染模型的上下文。

理解了攻擊機制,就能明白為何修補單一措辭是徒勞的。屏蔽特定字串就像打地鼠,補了一個洞,旁邊的空隙仍然敞開,攻擊者只需稍微改寫就能繞過。更根本的問題在於,面對的不是一個有限的「壞輸入列表」,而是整個無限大的輸入空間。任何只記憶特定樣本的防禦,都注定永遠落後一步。正確的應對思路是放棄追求「完美的單一修復」,轉而設計縱深分層防禦:通過注入對抗性樣本讓拒絕行為真正泛化(而非只針對已知樣本),同時部署獨立的輸入輸出過濾層作為補漏機制,強化系統提示策略,並且——對智能體尤其關鍵——從一開始就限制其能力與權限範圍,使得即便越獄成功,造成的損害也降至最低。

在如何衡量進展的問題上,這段內容給出了務實的答案:魯棒性無法被「證明」,只能通過對抗測試來估計。評估的核心是維護一個持續演進的紅隊測試集,其中必須包含模型從未訓練過的保留攻擊樣本,並追蹤各攻擊類別的成功率趨勢。若已知攻擊成功率降低,但新攻擊依然奏效,那只說明模型對測試集過擬合,並非真正變得更魯棒。此外,野外發現的真實攻擊必須持續回流測試集。最終,能觀察到的最好信號是:在多樣化且不斷更新的攻擊下,成功率下降但不為零。這是進步,但永遠不能宣稱問題已解決。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。