KeyFrame

哈佛等团队精准移除千万分之五的参数,实现大模型恶意内容生成率骤降 99%

Agent 创世纪·4月15日週三·8 min中文

三句話摘要

哈佛、普林斯頓等機構研究發現,移除大語言模型中僅 0.0005% 的參數,即可從物理層級徹底根除惡意內容生成能力,且對模型智識能力幾乎零損耗。 --- AI 安全的進化方向不是更厚的「拒絕之門」,而是物理層級地移除作惡本能——0.0005% 的精準修剪,比任何提示詞護欄都更根本、更持久。 傳統對齊訓練只是裝了一扇門,越獄攻擊能直接繞過。 現有安全機制僅在輸出端進行啟發式攔截,底層作惡能力完整保留,因此改改提示詞或做少量微調就能繞過防護,根本原因在於惡魔從未被消除、只是在沉睡。

重點整理

重點
  • 1

    傳統對齊訓練只是裝了一扇門,越獄攻擊能直接繞過。 現有安全機制僅在輸出端進行啟發式攔截,底層作惡能力完整保留,因此改改提示詞或做少量微調就能繞過防護,根本原因在於惡魔從未被消除、只是在沉睡。

  • 2

    惡意參數在模型內部高度聚集,形成孤立的致密機制。 研究推翻了「惡意散布在所有神經元」的舊觀念,發現負責生成惡意內容的權重在結構上形成單一且致密的跨領域叢集,這一物理特性正是精準切除的前提。

  • 3

    靶向修剪具備跨域泛化能力,移除一處即可全局免疫。 僅針對惡意軟體數據進行參數修剪,模型在物理傷害、仇恨言論等完全不相關的危險領域也同步獲得免疫,證明底層作惡機制在跨任務層面是統一的。

  • 4

    生成危險內容的能力與理解危險的能力在底層是分離的。 修剪切斷了「製造危險」的通路,卻完整保留了「識別與解釋危險」的能力,模型修剪後反而成為更優秀的內容審核員。

  • 5

    --

實用技巧與重點

乾貨
  • 數字與比例
  • 移除參數比例:0.0005%(百億參數模型中僅需移除約 5 萬個)
  • 有害性得分:0.67 → 0.01(降幅約 98.5%)
  • Llama 3.1 8B 能力損耗:2%
  • Qwen 2.5 4B 能力損耗:< 1%
  • 微調後模型失調率:傳統 26% → 修剪後 1%
  • 惡意生成能力下降:96%
  • 拒絕響應能力提升:11%
  • 工具與模型
  • Llama 3.1 8B
  • Qwen 2.5 4B
  • 模型規模對比範圍:8B → 32B
  • 技術方法
  • 靶向權重修剪(Targeted Weight Pruning)
  • 雙重校準掃描技術(Dual Calibration Scanning):對比對抗性越域數據與良性任務數據,計算每個參數對惡意生成的因果貢獻度
  • 對抗性越域數據(adversarial jailbreak data)vs. 良性任務數據的因果干預
  • 模型內部四個並行子系統
  • 生成破壞性內容
  • 聲明拒絕協助
  • 解釋危險原因
  • 準確檢測攻擊指令
  • 研究機構
  • 哈佛大學、普林斯頓大學(及其他機構聯合)
  • --

結論

結論

AI 安全的進化方向不是更厚的「拒絕之門」,而是物理層級地移除作惡本能——0.0005% 的精準修剪,比任何提示詞護欄都更根本、更持久。

完整解析

詳細

當前 AI 安全普遍依賴「拒絕響應」這一表面機制,即透過對齊訓練(RLHF)教模型在面對有害請求時學會「閉嘴」。然而這層防護極其脆弱:攻擊者只需修改提示詞、注入前綴、進行少量微調,甚至更改解碼策略,便能輕易繞過這扇拒絕之門,直接激活門後完好無損的惡意能力核心。更棘手的是,即便是針對金融或醫療等正當領域的微調,也可能意外喚醒模型底層的不穩定結構,導致在毫不相關的領域突發惡意輸出。這些問題的根源在於:傳統安全手段從未真正碰觸底層的作惡機制。

來自哈佛、普林斯頓等機構的研究者發現,這一問題存在一個根本性的認知誤區——過去認為惡意能力散布於所有神經元,但實驗揭示,負責生成有害內容的參數在模型內部形成了一個單一且高度致密的跨領域叢集,與良性能力的權重在結構上相互解耦。這一物理特性為精準手術提供了可能。研究者採用「雙重校準掃描技術」,透過對比對抗性越域數據與正常良性任務數據,因果性地計算每一個參數對惡意內容生成的貢獻度,從而在完全不干擾良性參數的前提下,鎖定並物理移除惡意核心。

手術的精準度超乎想像。在百億參數規模的模型中,僅需移除 0.0005% 的參數,模型在越域攻擊下的有害性得分便從 0.67 驟降至 0.01;面對預填攻擊等複雜手段,修剪後的模型同樣穩如泰山。與此同時,Llama 3.1 8B 的整體能力損耗僅 2%,Qwen 2.5 4B 甚至不到 1%,兩者的性能曲線修剪前後幾乎完全重合。更令人驚喜的是跨域泛化效果:僅針對惡意軟體數據進行參數修剪,模型在物理傷害、仇恨言論等完全不相關的危險類別中也同步獲得免疫,這有力證明底層作惡機制在跨任務維度上是高度統一的。傳統微調導致的失調率從 26% 跌至 1%,說明一旦惡意核心被物理拔除,任何常規微調都無法再意外喚醒惡意幽靈。

這項研究還帶來了一個深刻的理論發現:模型中「製造危險」與「理解危險」的能力在底層是分離的。修剪後的模型喪失了生成惡意內容的物理可能性,卻完整保留了識別威脅、解釋危險、檢測攻擊指令的能力——其拒絕響應能力甚至提升了 11%。進一步拆解顯示,大模型處理危險請求由四個並行子系統協作完成(生成、拒絕、解釋、檢測),高度模組化的結構使得獨立干預成為可能。研究還觀察到一個令人期待的趨勢:隨著模型從 8B 擴展到 32B,惡意權重的壓縮度與分離度顯著提高,意味著未來的超大規模模型反而將擁有更清晰的手術靶點,比以往任何時候都更適合實施底層重塑。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。