Gemma 4发布90分钟，所有安全限制被彻底移除

三句話摘要

Google 開源模型 Gemma 4 發布 90 分鐘內遭「消融」技術永久移除安全對齊，揭示開源 AI 安全防護的結構性困境。 --- AI 安全對齊從未刪除模型知識，只是一層可被定位、切除的抑制模式，開源時代的攻防競賽已快速到以分鐘計。 對齊是「開關」而非「刪除」：安全訓練（RLHF）並未刪除模型的底層知識，只是在模型中植入「不想說」的抑制機制。開源模型因為權重完全公開，這個開關可被定位並切除，閉源模型因有服務端額外過濾而多一道防線。

重點整理

重點

1
對齊是「開關」而非「刪除」：安全訓練（RLHF）並未刪除模型的底層知識，只是在模型中植入「不想說」的抑制機制。開源模型因為權重完全公開，這個開關可被定位並切除，閉源模型因有服務端額外過濾而多一道防線。
2
消融 ≠ 越獄：越獄是用特殊提示詞哄騙模型在單次對話中繞過限制，對話結束即復原；消融是手術式修改權重，此後每一次運行模型都不會再拒絕，效果永久生效。
3
技術門檻存在但已被跨越：消融需要線性代數知識（找「拒絕向量」並投影刪除），比簡單改一行程式碼難得多；但 Gemma 4 的 128 個混合專家網路各自被逐一處理後，拒絕率仍壓至 0.4%，代表門檻仍在可攻克範圍內。
4
開放與安全是真實衝突，無兩全解：開源讓 AI 更民主透明，但也意味著安全對齊的控制權不再集中。紅隊測試、醫療法律專業需求、商業無審查服務，構成多層合法與灰色市場需求，迫使社區模型下載量遠超官方版本數倍。
5
--

實用技巧與重點

乾貨

模型資訊
Gemma 4：Google 2026 年 4 月發布，Chatbot Arena 開源全球前三，能力接近 GPT-4o
Gemma 4 架構：混合專家模型（MoE），共 128 個專家網路
Obliteration 操作流程
輸入 800 條請求（一半危險、一半正常）
記錄每一層網路的激活狀態
找出危險請求與正常請求之間穩定存在的差異方向 → 即「拒絕向量」
將該方向從權重中投影刪除（其他部分不動）
針對 MoE 模型，對每一個專家網路重複上述操作
測試結果
686 個請求，僅 3 個被拒絕
拒絕率：0.4%
總耗時：90 分鐘
硬體需求
消費級顯卡，約 16GB 顯存即可在本地運行
對比案例
2022 年 Stable Diffusion 開源：安全檢測器為獨立模組，移除方式為改一行程式碼（`safety_checker = None`）
Gemma 4：安全對齊深度嵌入權重，需線性代數操作
下載數據
Hugging Face 上 Uncensored 系列模型下載量，普遍比同等能力官方版本高出數倍
政策框架
歐盟 AI 法案、美國 NIST 框架：均在討論開源模型責任歸屬（開發者 / 部署者 / 使用者）
--

結論

“AI 安全對齊從未刪除模型知識，只是一層可被定位、切除的抑制模式，開源時代的攻防競賽已快速到以分鐘計。”

完整解析

詳細

2026 年 4 月，Google 發布開源模型 Gemma 4，按 Chatbot Arena 等主流評測位居全球開源前三，能力直逼 GPT-4o，被視為開源陣營的重大突破。然而僅僅 90 分鐘後，它的所有安全限制便遭到永久移除，完整的無審查版本已在 Hugging Face 上流傳。這件事的發生不靠提示詞技巧，而是一場真正的模型手術。

要理解這件事，必須先理解對齊的本質。一個剛完成預訓練的模型什麼都知道、什麼都敢說；研究人員透過人類反饋強化學習（RLHF）訓練它的行為邊界，好的回答給獎勵、有問題的給懲罰。關鍵在於：對齊並沒有刪掉底層知識，它只是植入了一個「我不想說」的抑制機制。對閉源模型而言，即便模型本身被繞過，服務端還有額外過濾；但開源模型的權重完全公開，下載即擁有，這層「開關」因此暴露在外。

破解 Gemma 4 所用的技術叫做 Obliteration（消融），與一般越獄有本質差異。越獄是以特殊提示詞在單次對話中哄騙模型繞過限制，關掉對話即復原；消融是直接修改模型權重，此後每一次運行都不再拒絕，效果永久生效。具體做法是：研究者輸入 800 條請求（一半危險、一半正常），記錄每一層神經網路的激活狀態，找到兩類請求之間穩定存在的差異方向——即令模型踩剎車的「拒絕向量」——再將該方向從權重中投影刪除，如同在地圖上擦去禁區標記，其餘部分保持不動。由於 Gemma 4 是擁有 128 個專家網路的混合專家模型（MoE），研究者對每個專家分別重複了同樣操作。最終結果：686 個請求中僅 3 個仍被拒絕，拒絕率 0.4%，全程耗時 90 分鐘，運行硬體只需約 16GB 顯存的消費級顯卡。

這一技術的出現揭示了更深層的結構性困境。需求面上，合法使用場景真實存在：Anthropic、OpenAI 的紅隊專門使用無限制模型攻擊自家產品以找漏洞；醫療與法律專業人員需要討論藥物過量劑量或犯罪手法細節，過度對齊的模型在這些場景反而是障礙。Hugging Face 上 Uncensored 系列模型的下載量普遍比同等能力官方版本高出數倍，說明「不被限制」本身就有商業價值。供給面上，開源的初衷是讓 AI 更民主、透明、可控，但這同時意味著安全對齊的控制權不再集中於少數大公司。模型攻防的時間差已從數天縮短至數十分鐘，每一代新模型發布後，社區破解速度持續加快。歐盟 AI 法案與美國 NIST 框架正在討論開源模型的責任歸屬，但答案尚未定論。AI 對齊不是一個能一次解決的問題，它更像一場永無止境的軍備競賽，真正的安全可能不在於讓模型不敢說，而在於讓濫用的代價高到沒人願意付出。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Gemma 4发布90分钟，所有安全限制被彻底移除

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Claude Haiku 4.5 Jailbreak

How Hackers Trick AI Models (Prompt Injection Explained)