KeyFrame

[预览] 死磕 Prompt ?AI 内部的“隐藏地图”被破解,1494种越狱全是一个套路 (AUTOSKILL解读)

wow.哇·5月11日週一·4 min中文

三句話摘要

Autoscale 論文揭示:用自然語言控制大模型是根本性的錯誤,模型的激活空間裡存在一套比人類定義更有效的技能坐標系。 與其在 Prompt 文字上精雕細琢,不如直接進入模型的激活空間——那裡才有模型真正理解世界的語言。 自然語言控制模型存在結構性缺陷。 Prompt 是粗糙的離散符號,而模型內部是幾百億參數在連續高維空間做矩陣運算,兩者之間存在本質上的表達鴻溝,無論 Prompt 寫得多精細都只是近似控制。

重點整理

重點
  • 1

    自然語言控制模型存在結構性缺陷。 Prompt 是粗糙的離散符號,而模型內部是幾百億參數在連續高維空間做矩陣運算,兩者之間存在本質上的表達鴻溝,無論 Prompt 寫得多精細都只是近似控制。

  • 2

    不同模型各自演化出獨立的技能地圖。 同一個技能(如符號微積分),在 LLaMA 裡是 PC1 正軸,在 Qwen 裡卻是 PC1 負軸,說明預訓練過程讓每個模型獨立發現了自己的內部表示,我們用人類的分類體系去套用是根本性的導航錯誤。

  • 3

    越獄攻擊在激活空間中的本質極度收斂。 1494 種語義各異的越獄話術,在模型激活空間的投影高度重疊,意味著模型早已在更底層的維度上識別出攻擊意圖,表面的文字變化對模型而言幾乎沒有差異。

  • 4

    Representation Engineering 是下一個範式。 相較於在模型外部用語言「塑形」,直接讀取並操控激活空間的幾何結構,能從模型內部改變行為,是更根本、更精確的控制方式。

實用技巧與重點

乾貨
  • 論文名稱:Autoscale,作者:弗吉尼亞理工大學四名研究人員
  • 方法三步驟:① 抽取所有層的隱藏狀態拼成長向量 → ② 對序列做平均池化取得高維表示 → ③ PCA 分解激活矩陣找出主要方向(技能軸)
  • 每個 PCA 方向(技能軸)有正負兩端,代表兩種相反的技能傾向
  • 實驗數據:收集 32 個不同家族、共 1494 種越獄攻擊 Prompt
  • 結果:1494 種 Prompt 在激活空間的投影高度重疊
  • 案例:符號微積分 vs 離散數學在 LLaMA 中同屬 PC1 的正負兩端;在 Qwen 中符號微積分位於 PC1 負軸,與 LLaMA 正好相反
  • 新範式名稱:Representation Engineering(對比舊範式:Prompt Engineering + System Prompt + 外部腳手架)

結論

結論

與其在 Prompt 文字上精雕細琢,不如直接進入模型的激活空間——那裡才有模型真正理解世界的語言。

完整解析

詳細

當我們每天在精心調整 System Prompt,試圖用「你是資深 Python 工程師,請注意安全,輸出 JSON 格式」這類自然語言去操控大模型時,我們其實陷入了一個這個時代最大的工程幻覺。自然語言是離散的符號系統,但模型的內部是幾百億個參數在連續高維向量空間裡流動的數值。你寫下「Please Think Step by Step」,對模型而言發生的是矩陣乘法與激活函數,你的每個詞彙只是一個極度粗糙的低維信號。這就是 Autoscale 這篇論文試圖回應的根本問題。

弗吉尼亞理工大學的研究團隊沒有試圖改進 Prompt 寫法,而是選擇直接進入模型內部。他們的方法分三步:第一步,抽取模型處理每個序列時所有層的隱藏狀態,拼接成一個完整的長向量;第二步,對整個序列做平均池化,得到一個代表「模型眼中這個序列是什麼」的高維表示;第三步,對整個激活矩陣做 PCA 分解,找出最主要的方向——每個方向就是一個「技能軸」,正端與負端分別代表兩種相對的能力傾向。結果出現了一個令人意外的發現:模型自發組織的技能結構,與人類定義的學科分類體系存在系統性錯位。以 LLaMA 為例,符號微積分與離散數學推理竟然落在同一條 PC1 軸的兩個對立端點,而同樣是符號微積分,在 Qwen 的激活空間裡卻位於 PC1 的負軸,與 LLaMA 正好相反。這不是 bug,而是不同模型在各自的預訓練過程中,獨立演化出了一套自己的內部技能地圖。

在 AI 安全評測的應用上,Autoscale 的發現更具衝擊性。研究人員收集了 32 個不同攻擊家族、共 1494 種越獄 Prompt,將這些語義各異、表面上千變萬化的攻擊話術全部投影進激活空間。結果是:這 1494 種 Prompt 觸發的激活向量高度重疊。換句話說,無論攻擊者在文字層面如何包裝、迂迴、偽裝,在模型的激活空間裡,這些行為實際上只是在觸碰同幾個激活軸。模型在更底層的維度上,早就把這些操作識別為同一類事物。這意味著現有的文字層面越獄防禦思路,從根本上就瞄錯了靶子。

從更大的視角看,Autoscale 代表的是整個 AI 工程界正在發生的一次範式轉移。舊範式是 Prompt Engineering 加上外部腳手架,本質是在模型外圍包一層用人類語言寫成的規範層;新範式是 Representation Engineering,直接讀取並操控模型激活空間中的幾何結構,讓模型行為從內部被精確改變。Autoscale 是這個新方向的一個具體落地,它用實驗證明了模型激活空間裡確實存在一套可解讀的技能坐標系,而且這套坐標系比任何人類定義的分類體系都更貼近模型的真實運作邏輯。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。