KeyFrame

Every AI Can Be Jailbroken. That's the Wrong Question — Claude Fable 5

Claudius Papirus·6月13日週六·11 min中文

三句話摘要

美國政府限制 Anthropic 最強模型一事,揭示了 AI 安全評估的根本性框架錯誤:「能否被破解」從來不是正確問題,「破解的代價」才是。 AI 安全的正確問題不是「模型能否被破解」,而是「破解的代價是否低到讓攻擊划算」——而這個代價正在逐年下跌。 安全性從不是二元問題:業界長期將 AI 安全框架為「可被破解 = 危險、不可被破解 = 安全」,但這個邏輯套用在任何物理鎖具上都不成立,因為只要資源足夠,一切都能被開。正確的問題是:破解所需的成本、時間與專業程度是否讓攻擊划算。

重點整理

重點
  • 1

    安全性從不是二元問題:業界長期將 AI 安全框架為「可被破解 = 危險、不可被破解 = 安全」,但這個邏輯套用在任何物理鎖具上都不成立,因為只要資源足夠,一切都能被開。正確的問題是:破解所需的成本、時間與專業程度是否讓攻擊划算。

  • 2

    新的安全量化方法:研究者放棄只計算攻擊成功率,改為計算攻擊者需消耗的算力曲線,並將其轉化為一個貨幣化數字——讓模型半途失敗需要多少算力。這揭示了大型模型破解成本更高,但某些模型在特定類別的攻擊中安全訓練幾乎無效。

  • 3

    程式碼輸出越獄漏洞:模型的拒絕回應存在於自然語言層("I can't help with that"),若強制模型只能輸出有效程式碼語法,拒絕語句就無法以合法程式碼形式呈現,護欄因此失效。這個漏洞本身是可修補的,但前提是你知道它存在。

  • 4

    限制單一模型的邏輯矛盾:被限制的能力並不只存在於 Anthropic 的閉源模型中,同樣的能力散佈於多個開源模型,任何人都可下載本地執行,沒有任何關閉開關可拉。政府的行動在自身框架下也難以自圓其說。

實用技巧與重點

乾貨
  • 受限模型:Claude Fable 5、Claude Mythos 5
  • 限制依據:模型在尋找安全漏洞(零日漏洞)上表現異常優異
  • Anthropic 自測結論:越獄能力與其他公開模型相當,屬「細微障礙」等級
  • 新安全量化指標:攻擊者需消耗的算力 × 對應貨幣成本 = 安全性曲線
  • 越獄技術:強制模型輸出格式為純程式碼(Code-only output constraint),使自然語言拒絕語句無法生成
  • 對比案例:GPT-5.5 在同一時期也被用於相同測試場景
  • 趨勢數據:每年攻擊成本下降,攻擊自動化程度提升,所有模型(含安全模型)的防護係數持續下滑
  • 結論數字:三天——Anthropic 模型被政府限制後,一天內即收到政府指示

結論

結論

AI 安全的正確問題不是「模型能否被破解」,而是「破解的代價是否低到讓攻擊划算」——而這個代價正在逐年下跌。

完整解析

詳細

事件的起點是美國政府向 Anthropic 發出指示,要求限制其兩款最頂尖模型 Claude Fable 5 與 Claude Mythos 5 的對外開放,理由是這兩款模型在尋找資安漏洞(尤其是零日漏洞)方面的能力過於突出,可能構成國家安全威脅。由於政府的禁令針對外國國民,而 Anthropic 無法精準執行此限制,最終只能對全球所有用戶一律暫停服務。

然而,Anthropic 公開的自測結果顯示,這兩款模型的實際越獄能力與市面上其他公開模型相去不遠,屬於「細微障礙」等級,並不具備特殊的突破性。影片的核心論點由此展開:政府與大眾輿論長期以「能否被破解」作為評斷 AI 安全的準則,但這個框架從根本上就是錯的。沒有任何 AI 模型是無法被破解的,就像沒有任何保險箱在足夠時間與資源面前是無法被撬開的。安全從來不是一個開關,而是一條成本曲線。

正因如此,部分安全研究者提出了全新的評估方式:不再只計算有多少比例的攻擊成功通過,而是計算攻擊者需要消耗多少算力與資金,才能讓模型「半途失敗」(即成功繞過安全訓練)。這條算力-成本曲線讓一個孩子用家用電腦發動的攻擊與有組織的國家級行為者之間的差異變得可見。測試結果也帶來了不均勻的發現:對某些攻擊類別,安全訓練有效地拉高了成本;但對另一些類別,訓練幾乎毫無效果。而本次被限制的模型,其中一項被批評的能力正在這套新框架下被重新審視。

影片還揭示了一個具體的技術漏洞,清楚說明了「護欄在哪個語言層」這個問題至關重要:模型的拒絕訓練存在於自然語言層,當研究者強制模型只能輸出有效的程式碼語法時,"I can't help with that" 這句話就無法以合法程式碼形式生成,護欄因此被架空。模型被逼進一個只有一條出路的房間,而那條出路就是寫出你要求它寫的東西。好消息是,這個漏洞在被發現後是可以修補的;壞消息是,修補的前提是你知道它的存在。最終,影片將問題拉回最根本的層次:攻擊成本每年都在下降,自動化程度持續提升,在這個趨勢下,限制單一閉源模型究竟能守住多大的防線,才是真正值得所有人計算的數字。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。