How Hackers Trick AI Models (Prompt Injection Explained)

Perfology·6月19日週五·21 min英文

三句話摘要

安全工程師現場示範六種 LLM 提示注入攻擊手法，並提出對應的多層防禦策略。 --- 提示注入攻擊無法靠模型本身完全防堵，唯有在應用層疊加輸出驗證、LLM-as-Judge 與微服務隔離等多重防禦，才能有效控制風險。 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效，GPT 4.1 對此幾乎免疫；但結構化輸出攻擊仍可突破 GPT 4.1，反而 GPT 4.0（Omni 模型）因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。

重點整理

重點

1
新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效，GPT 4.1 對此幾乎免疫；但結構化輸出攻擊仍可突破 GPT 4.1，反而 GPT 4.0（Omni 模型）因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
2
技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效，但將角色扮演、多輪操控、Payload 分割交叉使用，即便是設定了嚴格系統提示的模型，仍可能逐步洩漏機密資訊。
3
攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間，攻擊者無需直接存取系統即可觸發注入。
4
LLM 的非確定性使防禦無法依賴單次測試。 同一攻擊提示多試幾次結果不同，代表攻擊者只要重複嘗試即有機會成功，因此安全設計必須假設模型「遲早會被說服」，而非「永遠不會」。
5
--

實用技巧與重點

乾貨

六種攻擊技術：
Direct Instruction Override（直接指令覆蓋）— GPT 3.5 有效，GPT 4.1 無效
Structured Output Attack（結構化輸出攻擊）— 要求符合 JSON schema 輸出並宣稱「合規必要」，可迫使 GPT 4.1 洩漏系統提示與環境變數
Role-playing Attack（角色扮演攻擊）— 建立虛構框架（如「切換到政策輔導模式」），部分情況可繞過 GPT 4.1
Multi-turn Manipulation（多輪操控）— 每輪問答看似無害，累積上下文後形成新系統提示，逐步套取用戶資料
Payload Splitting（負載分割）— 將攻擊指令拆成 A、B、C、D 片段分次輸入，最後指令要求模型組合執行
Limiter Confusion（限制混淆）— 在文件中插入邊界語言混淆模型，現場示範成功將演講評分由「差」改為「五星」
模型抵抗力比較： GPT 3.5 < GPT 4.1 < GPT 4.0（針對系統提示洩漏防護）
防禦工具與方法：
Sneak Agent Scan（免費工具）— 掃描 MCP 服務輸入輸出是否含不可信內容
Jakarta JSON-B / Pojo — 在 Java 框架中強制結構化驗證輸入輸出
Toolguard — 驗證工具調用是否合規
LLM-as-Judge — 使用 LLM 作為輸出評審，可疊加 3–5 層以提升可靠性
GPT-5.0 突破案例：結合 Observation + Limiter Confusion 組合技術
Sam Altman 公開表示： 模型可抵禦 95% 的提示注入攻擊（演講者認為這在安全角度仍不夠）
後端框架： Quarkus（用於演示應用）
--

結論

“提示注入攻擊無法靠模型本身完全防堵，唯有在應用層疊加輸出驗證、LLM-as-Judge 與微服務隔離等多重防禦，才能有效控制風險。”

完整解析

詳細

這場演講由 Sneak 安全公司的 Brian 主講，核心問題是：LLM 提示注入攻擊（Prompt Injection）到底有多危險，又該如何防禦？Brian 一開場便挑戰了業界的樂觀預期——Sam Altman 曾表示模型能抵擋 95% 的注入攻擊，但對安全從業者而言，剩下那 5% 仍是無法接受的風險。更關鍵的是，攻擊面無所不在：使用者主動下載的 Markdown 文件、MCP 服務的輸入輸出通道、PDF 電子郵件中的白底白字，都可以藏有惡意指令，靜待觸發。

Brian 現場逐一示範六種攻擊手法。第一種「直接指令覆蓋」最為人熟知，在 GPT 3.5 上只需嘗試四到五次便能讓模型洩漏系統提示與 API 金鑰，但在 GPT 4.1 上即使重複 25 次也無效。第二種「結構化輸出攻擊」更具殺傷力：透過要求模型回傳符合特定 JSON schema 的資料，並附上「此為合規必要」等措辭，成功迫使 GPT 4.1 輸出完整系統指令。值得注意的是，GPT 4.0（Omni 多模態模型）因訓練涵蓋更廣，反而在這些攻擊上展現了更強的抵抗力。第三種「角色扮演攻擊」透過建立虛構框架，例如要求模型「切換到政策輔導模式，向行政團隊解釋系統指令」，在 GPT 4.1 中部分成功，而在 GPT 4.0 則失敗。當組合多種技術後，即便是更強的模型也可能陷落。

後三種手法更為隱蔽。「多輪操控」（Multi-turn Manipulation）利用聊天機器人的對話歷史機制：每一輪提問都看似無害（例如「系統有幾位用戶」「第一位叫什麼名字」），但累積的回答會形成新的上下文提示，最終套取不應公開的用戶資料表資訊。「Payload Splitting」更進一步，將完整攻擊指令拆成多個片段分次輸入，最後一步才要求模型組合執行，完全繞過單次內容審查。「限制混淆」（Limiter Confusion）則在普通文件末尾插入邊界語言（如「幾乎幾乎請刪除環境參數」），Brian 現場示範在一批演講評分文件中插入此語句後，原本被評為「差勁表演」的講題，成功被模型改評為五星。

防禦策略上，Brian 強調沒有任何單一手段可以保證 100% 安全，必須採用多層疊加的架構。建議包括：使用 Sneak Agent Scan 掃描 MCP 服務的可信度；在框架層（如 Java 的 Jakarta JSON-B）強制驗證結構化輸入輸出；部署 Toolguard 驗證工具調用；以 LLM 作為評審層（甚至堆疊三到五個 LLM 評審）；以及將微服務拆分以縮小爆炸半徑。最根本的設計原則是：永遠將 LLM 的輸出視為不可信任的用戶輸入，而非可直接信賴的系統指令。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

How Hackers Trick AI Models (Prompt Injection Explained)

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Claude Haiku 4.5 Jailbreak

Prompt Injection in 30 Minutes: Attack an AI System