KeyFrame

How can Pixels DOS an AI | Video LLM Token Flood Explained in 5min | @AI-Red-Teaming

Red Teaming AI·5月27日週三·5 min中文

三句話摘要

一個僅 48×48 像素的惡意圖像可透過「VidDOS」攻擊讓視頻語言模型(VideoLM)陷入無限 token 輸出循環,造成系統凍結與嚴重延遲。 一張 48×48 像素的惡意圖像就能讓 VideoLM 系統凍結逾 2.7 秒,VidDOS 攻擊揭示了視覺語言模型在高風險部署場景中的結構性安全盲點,防禦刻不容緩。 攻擊觸發機制極為輕量:攻擊者只需在影片中嵌入一個肉眼幾乎不可見的 48×48 像素圖像,即可劫持 AI 的注意力機制,使其陷入無法中斷的 token 洪流,這正是其隱蔽性最高的特點。

重點整理

重點
  • 1

    攻擊觸發機制極為輕量:攻擊者只需在影片中嵌入一個肉眼幾乎不可見的 48×48 像素圖像,即可劫持 AI 的注意力機制,使其陷入無法中斷的 token 洪流,這正是其隱蔽性最高的特點。

  • 2

    危害量化數據驚人:單次攻擊可讓 AI 產生超過正常量 200 倍的輸出 token,處理時間增加逾 15 倍,最終造成 2.7 秒以上的系統凍結,遠超任何安全系統的可接受延遲上限。

  • 3

    自動駕駛場景下後果等同災難:在公路速度行駛的自駕車中,2.7 秒的感知凍結足以讓系統錯失攸關生死的決策窗口;這不是「效能下降」,而是系統完全失能。

  • 4

    問題根源在 VideoLM 架構本身:研究人員指出此漏洞並非特定模型的 bug,而是 VideoLM 處理視覺資訊時的結構性弱點,意味著同類架構的所有模型皆面臨同樣風險。

實用技巧與重點

乾貨
  • 攻擊名稱:VidDOS(Video Denial of Service,視頻拒絕服務攻擊)
  • 攻擊載體尺寸:48 × 48 像素圖像
  • 正常回應 token 數:約 1 個(例如單字「No」)
  • 攻擊後輸出 token 數:超過 500 個無意義 token
  • token 輸出倍增量:超過 200 倍
  • 處理時間倍增量:超過 15 倍
  • 實測系統延遲:2.7 秒以上
  • 攻擊效果:阻止後續影格處理、觸發安全限制、系統功能完全中斷
  • 受影響範圍:任何以相同方式進行視覺資訊處理的 VideoLM 架構

結論

結論

一張 48×48 像素的惡意圖像就能讓 VideoLM 系統凍結逾 2.7 秒,VidDOS 攻擊揭示了視覺語言模型在高風險部署場景中的結構性安全盲點,防禦刻不容緩。

完整解析

詳細

現代 AI 代理人系統,尤其是整合了視覺感知能力的 VideoLM,正被廣泛部署在需要即時決策的高風險場景中,例如自動駕駛車輛。這類系統必須在毫秒之間感知環境、理解情境並做出反應,任何延遲都可能轉化為真實的安全事故。然而,研究人員發現了一種名為「VidDOS」(Video Denial of Service)的攻擊手法,能以極低的成本、極小的載體,讓這類系統完全癱瘓。

VidDOS 的核心武器出乎意料地簡單:一張僅 48×48 像素的圖像,悄悄嵌入影片邊緣,肉眼幾乎無法察覺。這張圖像的設計如同一個「注意力磁鐵」,一旦 VideoLM 的視覺處理流程掃描到它,就會觸發一種被稱為「token 洪流(token flood)」的現象。AI 的語言生成模組被強行鎖定在這個區域,開始無止境地輸出毫無意義的 token 序列,且由於攻擊圖像的特殊設計,系統無法透過任何簡單機制自行中斷這個過程。

實驗數據清晰展示了其破壞力。一個正常的視覺問答任務,例如詢問系統「這裡是否需要緊急操作」,通常會得到一個單字回應。但在攻擊觸發後,同樣的問題卻引發超過 500 個無意義數字與字元的輸出洪流,整體 token 生成量超出正常水準 200 倍。這些多餘的計算工作直接拖垮了系統管線:處理時間增加超過 15 倍,最終造成 2.7 秒以上的系統凍結。對於以公路速度行駛的自駕車而言,2.7 秒意味著數十公尺的盲區行駛,遠遠超出任何安全規範的容忍上限,後果不是效能警告,而是潛在的人命事故。

更令人憂慮的是,研究人員指出這並非某個特定模型的實作缺陷,而是 VideoLM 架構在處理視覺 token 時的結構性脆弱點。這意味著,只要採用相似視覺資訊處理方式的模型,理論上都可能遭受同樣的攻擊,攻擊面因此從單一系統擴展至整個 VideoLM 生態系。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。