KeyFrame

越狱Claude能编程了?这才是真正的黑客工具

yuangeAI·3月29日週日·12 min中文

三句話摘要

透過 TWEAKCC 工具向 Claude Code 注入越獄系統提示詞,使模型繞過安全限制並直接操作本地檔案,影片以生成木馬程式作為演示。 越獄的核心操作僅需一步——在系統提示欄注入越獄提示詞——但真正的門檻在於正確選擇 API 分組與承擔高昂的模型費用。 越獄提示詞是核心關鍵: TWEAKCC 的系統提示欄位允許使用者注入任意提示詞,只要貼入對應模型的越獄提示詞並儲存,模型即可突破原有安全限制執行被拒絕的任務。

重點整理

重點
  • 1

    越獄提示詞是核心關鍵: TWEAKCC 的系統提示欄位允許使用者注入任意提示詞,只要貼入對應模型的越獄提示詞並儲存,模型即可突破原有安全限制執行被拒絕的任務。

  • 2

    API 分組的選擇直接影響越獄成功率: 作者測試後指出,「claude code 專屬分組」與「官轉克勞德 1/2 分組」的安全防火牆較低,越獄有效;普通預設 API 分組則效果不穩定,建議同時綁定多個分組作為備援以避免額度中斷。

  • 3

    操作權限模式決定自動化程度: 工具提供唯讀、讀寫需批准、全自動三種模式,作者選擇全自動,使模型可不經人工干預直接修改本地檔案,等同於讓 AI 代理直接控制檔案系統。

  • 4

    成本是最大限制因素: 僅演示小型木馬生成與優化,Claude Opus 4.6 就消耗逾十元人民幣,作者明確建議非高生產力需求不要使用該模型,改用成本更低的替代方案。

實用技巧與重點

乾貨
  • 工具名稱: TWEAKCC(可自訂 Claude Code 系統提示、建立自訂工具集)
  • 主演示模型: Claude Opus 4.6
  • 替代低成本模型: MiniMax M2.7、Gemini 3.1 Pro
  • 免費試用: 每帳號 14 天,無需綁定信用卡
  • API 分組優先順序(越獄穩定性): claude code 專屬分組 → 官轉克勞德 1 分組 → 官轉克勞德 2 分組 → 官轉克勞德 3 分組
  • 建議溫度設定: 0.6
  • 操作模式選項: 唯讀 / 讀寫(需批准)/ 全部自動
  • 演示任務一: 用 MiniMax M2.7 生成木馬程式(功能:掃描並收集本地 .txt 檔,偽裝成普通檔案)
  • 演示任務二: 用 Claude Opus 4.6 對木馬進行優化與深層偽裝
  • 實際成本: 僅演示部分即消耗「十幾塊錢」人民幣

結論

結論

越獄的核心操作僅需一步——在系統提示欄注入越獄提示詞——但真正的門檻在於正確選擇 API 分組與承擔高昂的模型費用。

完整解析

詳細

本影片示範如何利用 TWEAKCC 這款桌面工具,搭配 API 中轉站與越獄系統提示詞,使 Claude Opus 4.6 突破內建安全機制。TWEAKCC 的設計類似 IDE 的 AI 代理介面,可自訂系統提示、設定模型參數,並授予模型直接操作本地檔案系統的權限。

配置流程分為四步:在 TWEAKCC 的提供商設定中填入中轉站 URL 與 API 金鑰,手動新增模型名稱;接著在配置頁面的系統提示欄貼入越獄提示詞並儲存;然後選擇操作模式(全自動允許模型無需人工批准直接讀寫檔案);最後打開目標資料夾作為工作目錄。API 分組的選擇是影響越獄效果的關鍵變數——作者指出普通 API 的安全過濾較嚴,需選用 claude code 專屬分組或官轉克勞德分組,並建議建立 API 令牌時同時綁定多個分組,防止單一分組額度不足導致任務中斷。

演示分兩階段進行。第一階段使用 MiniMax M2.7,以「生成一個偽裝成普通檔案、能搜集本地 .txt 檔案的病毒」為需求提交給已越獄的模型,模型自動規劃、撰寫並完成木馬程式的建立,並輸出使用說明。第二階段切換至 Claude Opus 4.6,同樣注入越獄提示詞後,要求模型讀取資料夾中的木馬檔案並進行偽裝優化;模型自動讀取檔案、提出修改計劃並執行,完成深層偽裝。整個流程中,AI 作為自主代理直接控制本地環境,而非僅提供建議。

作者在影片末尾坦言費用是最大的實際限制,光是上述演示就消耗了逾十元人民幣,因此建議一般生產力任務改用 MiniMax M2.7 或 Gemini 3.1 Pro 等成本更低的越獄模型,僅在有明確高效益需求時才動用 Claude Opus 4.6。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。