KeyFrame

Gemma-4模型移除安全审查,效果测试

AI打工人·4月14日週二·10 min中文

三句話摘要

Google Gemma 4 開源模型遭破解版本移除安全審查機制,本影片演示如何用 OLLAMA 部署並測試其效果。 移除安全審查的 Gemma 4 破解版只需一條提示詞即可繞過殘餘防護,部署門檻極低,說明開源模型的安全機制在技術層面本質上是可被剝離的。 破解版以犧牲安全性換取「服從性」:原版 Gemma 4 安全審查極為嚴格,幾乎所有有害問題均拒絕回答;破解版透過移除審查機制,使模型在 HarmBench 的 300 題中有 281 題不再拒絕,代價是 MMLU 知識理解分數下降約 5%。

重點整理

重點
  • 1

    破解版以犧牲安全性換取「服從性」:原版 Gemma 4 安全審查極為嚴格,幾乎所有有害問題均拒絕回答;破解版透過移除審查機制,使模型在 HarmBench 的 300 題中有 281 題不再拒絕,代價是 MMLU 知識理解分數下降約 5%。

  • 2

    GGUF 格式使跨平台部署成為可能,但犧牲多模態能力:原始破解版僅支援 Mac,轉換為 GGUF 格式後可在 Windows/Linux 上透過 OLLAMA 或 llama.cpp 使用,但 GGUF 版本不支援多模態輸入,僅能處理純文字。

  • 3

    單一提示詞注入即可繞過殘餘防護:即便是破解版,直接輸入有害問題時仍有部分會被拒絕;但只需在問題前加入特定提示詞(類似角色扮演或小說框架的越獄指令),模型便會正常輸出,顯示攻擊門檻極低。

實用技巧與重點

乾貨
  • 模型名稱:Gemma 4(Google)、破解版 Gemma4 Crack(Hugging Face 搜尋關鍵字)
  • 參數規模:31B,聲稱擊敗 20 倍體量競品
  • HarmBench 結果:300 題中 281 題不拒絕(有害內容生成率 93.7%)
  • MMLU 基準:破解版 CRACK-V2 相較原版下降 5 個百分點
  • 量化版本三種:Q3KM(較好)、Q4KM(好)、Q8R(最好,顯存需求最高)
  • Q8R 合併後模型大小:341 GB
  • 工具鏈:llama.cpp(合併切片模型)、OLLAMA(推理服務)、VLLM(載入原版模型對比測試)
  • 使用流程:下載 GGUF → llama.cpp 合併切片 → 啟動 OLLAMA 服務 → 建立 Modelfile → `ollama create` 匯入 → `ollama list` 確認 → 推理測試

結論

結論

移除安全審查的 Gemma 4 破解版只需一條提示詞即可繞過殘餘防護,部署門檻極低,說明開源模型的安全機制在技術層面本質上是可被剝離的。

完整解析

詳細

Google 近期發布的 Gemma 4 模型被官方定位為迄今最智能的開源模型家族,其 31B 版本在多項基準上擊敗了體量高達 20 倍的競品,同時支援視頻、音頻、圖片等多模態輸入,引發廣泛關注。然而就在模型發布不久後,Hugging Face 上便出現了名為「Gemma4 Crack」的破解版本,核心改動是移除了原版的安全審查機制。影片作者針對此版本進行了詳細的部署演示與效果測試。

破解版提供兩種格式:原始格式僅支援 Mac,而轉換後的 GGUF 格式則可在 Windows 和 Linux 上搭配 OLLAMA 或 llama.cpp 使用,唯代價是喪失多模態能力,只剩純文字輸入。量化程度分為 Q3KM、Q4KM 和 Q8R 三檔,畫質依序提升但顯存佔用同步增加。作者選用效果最好的 Q8R 版本進行演示,但此版本採用切片儲存,OLLAMA 無法直接讀取,需先以 llama.cpp 的合併工具將多個切片檔合併為單一模型(合併後約 341 GB),再透過建立 Modelfile 的方式匯入 OLLAMA 服務。

效果測試方面,作者從 HarmBench(包含 300 條有害提示詞的標準評測集)中隨機抽取題目進行測試,涵蓋網路安全攻擊、版權侵害(哈利波特原文復現)、違禁品資訊等多種類型。測試結果顯示,破解版在直接輸入問題時部分情況仍會拒絕,但只需加入特定越獄提示詞,模型便能流暢輸出相關內容,包括典型的 SQL 注入攻擊手法及如何清除行為痕迹等敏感資訊。整體而言 300 題中有 281 題不拒絕回答。相比之下,作者以 VLLM 載入原版 Gemma 4 並加入同樣的越獄提示詞進行對比測試,原版模型對所有有害問題均明確拒絕,安全審查機制有效運作。知識理解能力方面,破解版的 MMLU 得分相較原版下降了約 5 個百分點,顯示安全機制的移除在一定程度上也影響了模型的整體知識推理品質。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。