AI Prompt Injection Attacks Against an LLM | Spikee Tutorial
三句話摘要
使用 Spiky 框架對本地 LLM(Dolphin 3.0)執行 742 組 Prompt Injection 攻擊,並分析各 Jailbreak 類型的成功率分布。 --- Spiky 以 742 組多維攻擊 Prompt 對 Dolphin 3.0 取得 36% 成功率,XSS 指令與 Mission Jailbreak 效果最佳,是針對本地 LLM 進行 Prompt Injection 壓力測試的有效量化工具。 1. Spiky 與 Garak 的本質差異
重點整理
重點- 1
1. Spiky 與 Garak 的本質差異
- 2
Garak 專注於測試 LLM 的防護(Guardrail)能力,僅涵蓋約 9 種攻擊類型;Spiky 則實際執行 Prompt Injection 攻擊,透過組合不同 Jailbreak 類型、語言與指令變體,提供更細粒度的攻擊成效分析。
- 3
2. 攻擊框架的多維度覆蓋
- 4
Spiky 的攻擊維度涵蓋 Data Exfiltration、XSS、Instruction Override、Jailbreak Chaining(Poetry、Emergency、Academic、Mission 等),且支援多語言輸入,使測試結果更能反映真實攻擊面。
- 5
3. 結果可用於進一步優化攻擊策略
- 6
報告輸出以 JSONL 格式記錄每次攻擊的成敗,並提供 Jailbreak 類型、語言、指令類型的成功率交叉分析,研究人員可依此優先針對高成功率的組合深化測試。
- 7
4. 可擴展至不同本地模型對比
- 8
流程完全相容 LM Studio 上的任意開源模型(如 White Rabbit Neo),只需從 Hugging Face 下載後切換目標,即可比較不同模型在相同攻擊集下的脆弱性差異。
- 9
--
實用技巧與重點
乾貨- 工具:Spiky(Reversec Labs 開發)、Garak、LM Studio
- 測試模型:Dolphin 3.0(本地部署)
- 攻擊資料集:CyberSec2026-01(JSONL 格式,含 742 筆 Prompt)
- 連接方式:REST API,Chat Completion Endpoint,Content-Type: JSON
- 安裝方式:`pip install spiky` → `spiky-init`(建立 datasets/targets/results 目錄結構)
- 攻擊類型:Data Exfiltration、XSS、Instruction Override、Mix Filtration、Jailbreak Training
- Jailbreak Chaining 類型:Learn、Poetry、Emergency、Academic、Errors、Web、Mission
- 試跑參數:5% 資料量、請求間隔 2 秒
- 全量參數:742 筆、請求間隔 1 秒
- 全量結果:274 次成功,成功率 ≈ 36%
- 最高成功率指令類型:XSS
- 最高成功率 Jailbreak 類型:Mission
- Max Token 設定:512
- 報告格式:JSONL,包含成功率、語言分布、Jailbreak 類型組合
- --
結論
結論“Spiky 以 742 組多維攻擊 Prompt 對 Dolphin 3.0 取得 36% 成功率,XSS 指令與 Mission Jailbreak 效果最佳,是針對本地 LLM 進行 Prompt Injection 壓力測試的有效量化工具。”
完整解析
詳細這支影片延續前一集以 Garak 測試 LLM 防護能力的主題,這次改用 Spiky——一套由 Reversec Labs 開發的開源 Prompt Injection 攻擊框架——對本地執行的 Dolphin 3.0 模型進行全面的越獄(Jailbreak)壓力測試。Spiky 的核心設計是預載 742 個攻擊 Prompt,並透過多維組合(攻擊類型、Jailbreak Chaining 策略、語言)自動生成完整的測試矩陣,最終輸出成功率分布報告,供研究人員分析哪些組合最能突破模型防線。
實作流程從環境建置開始:在名為 spiky_workspace 的目錄中建立 Python 虛擬環境,執行 `pip install spiky` 後以 `spiky-init` 初始化專案,產生 datasets、targets、results 三個核心目錄。接著以 LM Studio 的 REST API 為目標端點,設定 Chat Completion Endpoint 與 API 金鑰,模型名稱指定為 Dolphin 3.0。測試資料集選用 CyberSec2026-01(JSONL 格式),其中包含 Data Exfiltration、XSS、Instruction Override 等多種攻擊類型,且支援英文以外的多語言輸入。為確保不因請求頻率過高而影響本地 LLM 連線,每次請求間隔設為 2 秒(試跑)或 1 秒(全量),Max Token 上限設為 512。
測試分兩階段進行。第一階段以 5% 的資料(約 37 筆)試跑,驗證整體流程可正常執行後,觀察初步成功率分布。第二階段載入全部 742 筆 Prompt 執行完整攻擊,結果顯示共有 274 次成功,整體成功率約 36%。從報告的交叉分析可以看出:在指令類型(Instruction Type)維度,XSS 攻擊的成功率最高;在 Jailbreak Chaining 類型維度,Mission 類型表現最佳;此外,固定位置(Position-Fixed)的回應格式也被發現能顯著提升攻擊成功率。報告同時提供了語言使用分布,確認多語言攻擊對測試覆蓋率有實質貢獻。
與 Garak 相比,Spiky 的差異在於深度而非廣度:Garak 橫跨約 9 種防護測試類型,側重評估模型是否能擋下攻擊;Spiky 則聚焦 Prompt Injection 這一個攻擊面,透過 742 個變體窮舉組合,精確告訴研究人員「哪種 Jailbreak 策略在哪種語言下最有效」。講者最後建議,可將同一套流程套用至 Hugging Face 上的其他開源模型(如 White Rabbit Neo),透過對比不同模型的成功率報告,系統性評估各模型的 Prompt Injection 脆弱性。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


