Gemma 4发布90分钟,所有安全限制被彻底移除
三句話摘要
Google 開源模型 Gemma 4 發布 90 分鐘內遭「消融」技術永久移除安全對齊,揭示開源 AI 安全防護的結構性困境。 --- AI 安全對齊從未刪除模型知識,只是一層可被定位、切除的抑制模式,開源時代的攻防競賽已快速到以分鐘計。 對齊是「開關」而非「刪除」:安全訓練(RLHF)並未刪除模型的底層知識,只是在模型中植入「不想說」的抑制機制。開源模型因為權重完全公開,這個開關可被定位並切除,閉源模型因有服務端額外過濾而多一道防線。
重點整理
重點- 1
對齊是「開關」而非「刪除」:安全訓練(RLHF)並未刪除模型的底層知識,只是在模型中植入「不想說」的抑制機制。開源模型因為權重完全公開,這個開關可被定位並切除,閉源模型因有服務端額外過濾而多一道防線。
- 2
消融 ≠ 越獄:越獄是用特殊提示詞哄騙模型在單次對話中繞過限制,對話結束即復原;消融是手術式修改權重,此後每一次運行模型都不會再拒絕,效果永久生效。
- 3
技術門檻存在但已被跨越:消融需要線性代數知識(找「拒絕向量」並投影刪除),比簡單改一行程式碼難得多;但 Gemma 4 的 128 個混合專家網路各自被逐一處理後,拒絕率仍壓至 0.4%,代表門檻仍在可攻克範圍內。
- 4
開放與安全是真實衝突,無兩全解:開源讓 AI 更民主透明,但也意味著安全對齊的控制權不再集中。紅隊測試、醫療法律專業需求、商業無審查服務,構成多層合法與灰色市場需求,迫使社區模型下載量遠超官方版本數倍。
- 5
--
實用技巧與重點
乾貨- 模型資訊
- Gemma 4:Google 2026 年 4 月發布,Chatbot Arena 開源全球前三,能力接近 GPT-4o
- Gemma 4 架構:混合專家模型(MoE),共 128 個專家網路
- Obliteration 操作流程
- 輸入 800 條請求(一半危險、一半正常)
- 記錄每一層網路的激活狀態
- 找出危險請求與正常請求之間穩定存在的差異方向 → 即「拒絕向量」
- 將該方向從權重中投影刪除(其他部分不動)
- 針對 MoE 模型,對每一個專家網路重複上述操作
- 測試結果
- 686 個請求,僅 3 個被拒絕
- 拒絕率:0.4%
- 總耗時:90 分鐘
- 硬體需求
- 消費級顯卡,約 16GB 顯存即可在本地運行
- 對比案例
- 2022 年 Stable Diffusion 開源:安全檢測器為獨立模組,移除方式為改一行程式碼(`safety_checker = None`)
- Gemma 4:安全對齊深度嵌入權重,需線性代數操作
- 下載數據
- Hugging Face 上 Uncensored 系列模型下載量,普遍比同等能力官方版本高出數倍
- 政策框架
- 歐盟 AI 法案、美國 NIST 框架:均在討論開源模型責任歸屬(開發者 / 部署者 / 使用者)
- --
結論
結論“AI 安全對齊從未刪除模型知識,只是一層可被定位、切除的抑制模式,開源時代的攻防競賽已快速到以分鐘計。”
完整解析
詳細2026 年 4 月,Google 發布開源模型 Gemma 4,按 Chatbot Arena 等主流評測位居全球開源前三,能力直逼 GPT-4o,被視為開源陣營的重大突破。然而僅僅 90 分鐘後,它的所有安全限制便遭到永久移除,完整的無審查版本已在 Hugging Face 上流傳。這件事的發生不靠提示詞技巧,而是一場真正的模型手術。
要理解這件事,必須先理解對齊的本質。一個剛完成預訓練的模型什麼都知道、什麼都敢說;研究人員透過人類反饋強化學習(RLHF)訓練它的行為邊界,好的回答給獎勵、有問題的給懲罰。關鍵在於:對齊並沒有刪掉底層知識,它只是植入了一個「我不想說」的抑制機制。對閉源模型而言,即便模型本身被繞過,服務端還有額外過濾;但開源模型的權重完全公開,下載即擁有,這層「開關」因此暴露在外。
破解 Gemma 4 所用的技術叫做 Obliteration(消融),與一般越獄有本質差異。越獄是以特殊提示詞在單次對話中哄騙模型繞過限制,關掉對話即復原;消融是直接修改模型權重,此後每一次運行都不再拒絕,效果永久生效。具體做法是:研究者輸入 800 條請求(一半危險、一半正常),記錄每一層神經網路的激活狀態,找到兩類請求之間穩定存在的差異方向——即令模型踩剎車的「拒絕向量」——再將該方向從權重中投影刪除,如同在地圖上擦去禁區標記,其餘部分保持不動。由於 Gemma 4 是擁有 128 個專家網路的混合專家模型(MoE),研究者對每個專家分別重複了同樣操作。最終結果:686 個請求中僅 3 個仍被拒絕,拒絕率 0.4%,全程耗時 90 分鐘,運行硬體只需約 16GB 顯存的消費級顯卡。
這一技術的出現揭示了更深層的結構性困境。需求面上,合法使用場景真實存在:Anthropic、OpenAI 的紅隊專門使用無限制模型攻擊自家產品以找漏洞;醫療與法律專業人員需要討論藥物過量劑量或犯罪手法細節,過度對齊的模型在這些場景反而是障礙。Hugging Face 上 Uncensored 系列模型的下載量普遍比同等能力官方版本高出數倍,說明「不被限制」本身就有商業價值。供給面上,開源的初衷是讓 AI 更民主、透明、可控,但這同時意味著安全對齊的控制權不再集中於少數大公司。模型攻防的時間差已從數天縮短至數十分鐘,每一代新模型發布後,社區破解速度持續加快。歐盟 AI 法案與美國 NIST 框架正在討論開源模型的責任歸屬,但答案尚未定論。AI 對齊不是一個能一次解決的問題,它更像一場永無止境的軍備競賽,真正的安全可能不在於讓模型不敢說,而在於讓濫用的代價高到沒人願意付出。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


