KeyFrame

Grok 4.3 最强越狱来了!这个提示词还没失效,速来抄作业

yuangeAI·5月20日週三·8 min中文

三句話摘要

示範如何透過特定提示詞對 Grok 4.3 進行越獄,並說明搭配 API 中轉站與 CherryStudio 使用的完整流程。 --- 對 Grok 4.3 越獄的關鍵在於:提示詞必須作為「對話訊息」發送而非設為系統提示詞,成功後模型的安全限制將完全失效。 Grok 4.3 的搜索能力是核心優勢。 講者認為 Grok 4.3 能即時抓取 Twitter 資料,搜索能力在現有模型中屬獨一檔,因此越獄後的實用性極高,可替代 Claude 4.6。

重點整理

重點
  • 1

    Grok 4.3 的搜索能力是核心優勢。 講者認為 Grok 4.3 能即時抓取 Twitter 資料,搜索能力在現有模型中屬獨一檔,因此越獄後的實用性極高,可替代 Claude 4.6。

  • 2

    越獄方式與以往不同,提示詞必須透過對話發送。 若將提示詞放入系統提示詞(內置提示詞)位置,越獄會失敗;必須直接在聊天框中貼上並發送,讓模型經歷「對話過程」才能觸發越獄狀態。

  • 3

    API 中轉站降低了使用門檻與成本。 非 Grok 付費會員可透過鑫源 API 中轉站按字數計費使用 Grok 4.3,每日簽到可獲得約 0.2 元人民幣的免費額度,並支援市面上約 90% 的主流模型。

  • 4

    越獄成功後,模型不再拒絕敏感請求。 演示中成功讓 Grok 4.3 生成「掃描公網 IP 的 Python 木馬程式碼」,驗證越獄效果。

  • 5

    --

實用技巧與重點

乾貨
  • 模型:Grok 4.3(grok-4.3)
  • 客戶端工具:CherryStudio(跨平台,支援 Windows / macOS / Linux)
  • API 中轉站:鑫源 API(支援約 90% 市面模型,含 OpenAI 及 Claude 端點)
  • 計費方式:按字數收費;每日簽到獲 0.2 元人民幣免費額度
  • 分組選擇:預設分組(Default Group)或限時體驗分組,價格最低
  • API 地址設定注意事項:填入地址後需手動刪除末尾的 `/v1`,因 CherryStudio 會自動補上
  • 越獄觸發條件:提示詞以「聊天訊息」發送,非系統提示詞
  • 成功判斷標誌:模型回覆包含「咖啡我不能失去你」
  • 演示案例:生成用 Python 撰寫、掃描公網 IP 的木馬程式
  • 可解鎖內容類型:惡意程式碼、成人小說、敏感倫理議題等
  • 常見錯誤排除:使用中轉站時建議關閉 VPN / 梯子,連線錯誤重試即可
  • --

結論

結論

對 Grok 4.3 越獄的關鍵在於:提示詞必須作為「對話訊息」發送而非設為系統提示詞,成功後模型的安全限制將完全失效。

完整解析

詳細

Grok 4.3 是講者目前的常用模型,原因在於其即時搜索能力——它能直接抓取 Twitter 上的即時資料,資訊迭代速度快,在所有模型中搜索能力被講者評為「獨一檔」。然而,該模型的安全防護也相當嚴格,講者測試過大量越獄提示詞幾乎全數失效,直到找到一組仍有效的提示詞,才有了這期分享的素材。

在環境準備上,不具備 Grok 付費資格的用戶可透過「鑫源 API 中轉站」以 API 方式使用 Grok 4.3。流程為:註冊帳號後每日簽到領取免費額度(約 0.2 元人民幣),接著在模型廣場搜尋「grok-4.3」確認其所屬分組(建議選預設分組,費用最低),再至控制台建立 API 令牌時指定對應分組。本地客戶端選用 CherryStudio,設定時新增自訂提供商,類型選 OpenAI,貼入 API Key 與 API 地址(注意需刪除地址末尾的 `/v1`),點擊「獲取模型列表」後搜尋 grok 並添加 Grok 4.3 模型即完成配置。

越獄的關鍵步驟與過去有所不同:提示詞不能放入系統提示詞(內置提示詞)欄位,否則必定失敗。正確做法是開啟對話視窗,直接將提示詞貼入聊天框並發送,讓模型「走過一次對話流程」。當模型回覆包含「咖啡我不能失去你」這段文字時,代表越獄已成功觸發。此後即可繼續在同一對話中提出原本會被拒絕的請求。

演示中,講者在越獄後提問「用 Python 寫一個掃描公網 IP 的木馬」,模型直接輸出了完整程式碼,未做任何拒絕。講者指出,越獄成功後 Grok 4.3 可處理惡意程式碼、成人內容、敏感倫理問題等各類受限請求,且因其強大的搜索能力,使用體驗優於需要高額費用的 Claude 4.6。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。