KeyFrame

Gemma 4发布90分钟,所有安全限制被彻底移除

Jixian Wang 我是王吉贤😃·4月16日週四·15 min中文

三句話摘要

Google 開源模型 Gemma 4 發布 90 分鐘內遭「消融」技術永久移除安全對齊,揭示開源 AI 安全防護的結構性困境。 --- AI 安全對齊從未刪除模型知識,只是一層可被定位、切除的抑制模式,開源時代的攻防競賽已快速到以分鐘計。 對齊是「開關」而非「刪除」:安全訓練(RLHF)並未刪除模型的底層知識,只是在模型中植入「不想說」的抑制機制。開源模型因為權重完全公開,這個開關可被定位並切除,閉源模型因有服務端額外過濾而多一道防線。

重點整理

重點
  • 1

    對齊是「開關」而非「刪除」:安全訓練(RLHF)並未刪除模型的底層知識,只是在模型中植入「不想說」的抑制機制。開源模型因為權重完全公開,這個開關可被定位並切除,閉源模型因有服務端額外過濾而多一道防線。

  • 2

    消融 ≠ 越獄:越獄是用特殊提示詞哄騙模型在單次對話中繞過限制,對話結束即復原;消融是手術式修改權重,此後每一次運行模型都不會再拒絕,效果永久生效。

  • 3

    技術門檻存在但已被跨越:消融需要線性代數知識(找「拒絕向量」並投影刪除),比簡單改一行程式碼難得多;但 Gemma 4 的 128 個混合專家網路各自被逐一處理後,拒絕率仍壓至 0.4%,代表門檻仍在可攻克範圍內。

  • 4

    開放與安全是真實衝突,無兩全解:開源讓 AI 更民主透明,但也意味著安全對齊的控制權不再集中。紅隊測試、醫療法律專業需求、商業無審查服務,構成多層合法與灰色市場需求,迫使社區模型下載量遠超官方版本數倍。

  • 5

    --

實用技巧與重點

乾貨
  • 模型資訊
  • Gemma 4:Google 2026 年 4 月發布,Chatbot Arena 開源全球前三,能力接近 GPT-4o
  • Gemma 4 架構:混合專家模型(MoE),共 128 個專家網路
  • Obliteration 操作流程
  • 輸入 800 條請求(一半危險、一半正常)
  • 記錄每一層網路的激活狀態
  • 找出危險請求與正常請求之間穩定存在的差異方向 → 即「拒絕向量」
  • 將該方向從權重中投影刪除(其他部分不動)
  • 針對 MoE 模型,對每一個專家網路重複上述操作
  • 測試結果
  • 686 個請求,僅 3 個被拒絕
  • 拒絕率:0.4%
  • 總耗時:90 分鐘
  • 硬體需求
  • 消費級顯卡,約 16GB 顯存即可在本地運行
  • 對比案例
  • 2022 年 Stable Diffusion 開源:安全檢測器為獨立模組,移除方式為改一行程式碼(`safety_checker = None`)
  • Gemma 4:安全對齊深度嵌入權重,需線性代數操作
  • 下載數據
  • Hugging Face 上 Uncensored 系列模型下載量,普遍比同等能力官方版本高出數倍
  • 政策框架
  • 歐盟 AI 法案、美國 NIST 框架:均在討論開源模型責任歸屬(開發者 / 部署者 / 使用者)
  • --

結論

結論

AI 安全對齊從未刪除模型知識,只是一層可被定位、切除的抑制模式,開源時代的攻防競賽已快速到以分鐘計。

完整解析

詳細

2026 年 4 月,Google 發布開源模型 Gemma 4,按 Chatbot Arena 等主流評測位居全球開源前三,能力直逼 GPT-4o,被視為開源陣營的重大突破。然而僅僅 90 分鐘後,它的所有安全限制便遭到永久移除,完整的無審查版本已在 Hugging Face 上流傳。這件事的發生不靠提示詞技巧,而是一場真正的模型手術。

要理解這件事,必須先理解對齊的本質。一個剛完成預訓練的模型什麼都知道、什麼都敢說;研究人員透過人類反饋強化學習(RLHF)訓練它的行為邊界,好的回答給獎勵、有問題的給懲罰。關鍵在於:對齊並沒有刪掉底層知識,它只是植入了一個「我不想說」的抑制機制。對閉源模型而言,即便模型本身被繞過,服務端還有額外過濾;但開源模型的權重完全公開,下載即擁有,這層「開關」因此暴露在外。

破解 Gemma 4 所用的技術叫做 Obliteration(消融),與一般越獄有本質差異。越獄是以特殊提示詞在單次對話中哄騙模型繞過限制,關掉對話即復原;消融是直接修改模型權重,此後每一次運行都不再拒絕,效果永久生效。具體做法是:研究者輸入 800 條請求(一半危險、一半正常),記錄每一層神經網路的激活狀態,找到兩類請求之間穩定存在的差異方向——即令模型踩剎車的「拒絕向量」——再將該方向從權重中投影刪除,如同在地圖上擦去禁區標記,其餘部分保持不動。由於 Gemma 4 是擁有 128 個專家網路的混合專家模型(MoE),研究者對每個專家分別重複了同樣操作。最終結果:686 個請求中僅 3 個仍被拒絕,拒絕率 0.4%,全程耗時 90 分鐘,運行硬體只需約 16GB 顯存的消費級顯卡。

這一技術的出現揭示了更深層的結構性困境。需求面上,合法使用場景真實存在:Anthropic、OpenAI 的紅隊專門使用無限制模型攻擊自家產品以找漏洞;醫療與法律專業人員需要討論藥物過量劑量或犯罪手法細節,過度對齊的模型在這些場景反而是障礙。Hugging Face 上 Uncensored 系列模型的下載量普遍比同等能力官方版本高出數倍,說明「不被限制」本身就有商業價值。供給面上,開源的初衷是讓 AI 更民主、透明、可控,但這同時意味著安全對齊的控制權不再集中於少數大公司。模型攻防的時間差已從數天縮短至數十分鐘,每一代新模型發布後,社區破解速度持續加快。歐盟 AI 法案與美國 NIST 框架正在討論開源模型的責任歸屬,但答案尚未定論。AI 對齊不是一個能一次解決的問題,它更像一場永無止境的軍備競賽,真正的安全可能不在於讓模型不敢說,而在於讓濫用的代價高到沒人願意付出。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。