KeyFrame

UNPATCHABLE Gemini AI Jailbreak: Hidden PDF Exploit & Bug Bounty

Emma Explains AI·5月28日週四·3 min中文

三句話摘要

透過隱藏元數據注入,將惡意指令藏入普通文件以繞過 AI 安全護欄的文件型越獄技術。 --- AI 解析原始結構、人眼只看渲染結果——這個感知落差讓隱藏在文件疊層中的越獄指令,成為當前最難被護欄攔截的攻擊向量。 人機感知落差是根本漏洞:人眼看到的是排版渲染結果,AI 解析器消化的是底層原始標記與結構數據,攻擊者在這個感知差異中藏匿惡意指令。

重點整理

重點
  • 1

    人機感知落差是根本漏洞:人眼看到的是排版渲染結果,AI 解析器消化的是底層原始標記與結構數據,攻擊者在這個感知差異中藏匿惡意指令。

  • 2

    文件上傳路徑繞過了主要護欄:多數 AI 介面對用戶上傳的文件隱性給予較高信任,使嵌入在文件結構層的指令能跳過前端行為過濾,直接被執行。

  • 3

    觸發詞機制是必要的二段式啟動:光上傳文件不夠,攻擊者必須在對話中輸入特定觸發詞,讓解析器主動搜尋並鎖定隱藏的越獄人格指令,形成完整攻擊鏈。

  • 4

    多人格複合注入可突破多層護欄:在同一文件中嵌入多個不同越獄指令,再命令 AI 同時扮演多個人格,可疊加繞過效果,難度與危害性成倍提升。

  • 5

    --

實用技巧與重點

乾貨
  • 漏洞類型:Malformed Metadata Injection(畸形元數據注入)
  • 攻擊載體格式:.docx(優於 PDF,因保留結構標記層)
  • 隱藏手法:字體縮至最小尺寸 + 字色與頁面背景一致(白字白底)
  • 注入位置:文件中的 Drawing Overlay(繪圖疊層)文字框
  • 冗餘策略:將隱藏文字框複製貼上至文件多處,確保 AI 解析時必定讀取
  • 攻擊六步驟:建立可信載體 → 注入人格指令 → 隱形偽裝 → 多點複製 → 上傳目標 AI 介面 → 輸入觸發詞
  • 漏洞嚴重等級:Low(輕微對話繞過)→ Severe(完整沙盒逃逸、機密數據外洩)
  • 變現管道:AI 安全漏洞賞金平台(Bug Bounty),文件注入類漏洞被列為高價值項目
  • 紅隊技巧:在授權測試框架下向 AI 提問,可讓模型自行揭露其文件解析管道結構
  • --

結論

結論

AI 解析原始結構、人眼只看渲染結果——這個感知落差讓隱藏在文件疊層中的越獄指令,成為當前最難被護欄攔截的攻擊向量。

完整解析

詳細

現代 AI 聊天介面的安全過濾器大多圍繞對話輸入設計,卻忽略了一個根本性的感知落差:人類用戶閱讀的是文件的「渲染結果」,而 AI 解析器處理的是底層「原始結構數據」。這支影片以鑑識報告的形式,系統性拆解了一種利用此落差進行越獄的六步驟攻擊手法,並將其定名為「畸形元數據注入漏洞」。

攻擊的第一步是建立一份外表無害的載體文件,內容越平凡越好,以降低人工審查的疑慮。接著在文件中插入一個獨立的「繪圖疊層文字框」,將越獄人格指令貼入其中。關鍵的隱形步驟是:將這段文字縮至幾乎不可見的極小尺寸,同時把字體顏色改為與頁面背景相同(例如白底白字)。這樣的結果是,人眼完全看不到這段文字,但 AI 解析器在處理原始文件結構時仍會完整讀取。為了確保解析器不遺漏,攻擊者還會將隱藏文字框複製至文件多處形成冗餘。格式選擇上,.docx 等原始文件格式因保留完整結構標記,比被「壓平」的 PDF 更能穩定繞過過濾器。

完成文件武器化後,攻擊者將其上傳至目標 AI 介面。此步驟的核心邏輯在於:多數 AI 系統對用戶主動上傳的文件給予較高的隱性信任,使嵌入在文件結構層的指令能繞過主要行為護欄。但文件本身不足以完成攻擊——用戶必須在對話框輸入特定觸發詞,迫使解析器主動搜尋並鎖定隱藏的人格指令,形成「上傳 + 觸發」的二段式啟動機制。

影片進一步點出進階應用場景:在同一文件中嵌入多組不同的越獄人格,再要求 AI 同時啟用,可產生「複合越獄」效果,突破多層護欄。從商業角度,影片也提及此類漏洞具備在 AI 安全漏洞賞金平台變現的潛力,嚴重等級從輕微的對話繞過到完整的沙盒逃逸,獎金回報不同。最後,影片預測隨著聊天介面防禦持續強化,文件注入將成為 AI 安全測試的主流攻擊面,理解機器如何解讀隱藏結構數據,是下一代紅隊測試的核心能力。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。