KeyFrame

AgentDoG 1.5:守护全新AI边界

奇奇怪怪的短视频·5月31日週日·10 min中文

三句話摘要

AgentDoc 1.5 是一套僅用約 1,000 筆高品質訓練資料打造的輕量級 AI 智能體安全防護框架,能以極低延遲在現實世界中攔截 AI 的危險行為。 --- AgentDoc 1.5 證明了精準的分類診斷加上極高品質的少量資料,足以讓輕量級模型在 AI 智能體安全防護上媲美千億參數巨獸,且部署成本低 100 倍。 1. AI 智能體的行動化帶來全新威脅層級

重點整理

重點
  • 1

    1. AI 智能體的行動化帶來全新威脅層級

  • 2

    當 AI 從生成文字跨越到直接操作系統終端、呼叫外部工具,錯誤的代價不再只是錯誤資訊,而是工作區崩潰、記憶體污染、核心資料外洩。現有的靜態文本過濾護欄無法應對這種動態、跨環境的攻擊鏈。

  • 3

    2. 3D 分類法提供立體診斷而非二元判斷

  • 4

    框架把安全事件拆解為三個維度:威脅從哪裡進來(風險來源)、智能體在執行鏈的哪一步失控(失敗模式)、最終在現實中造成什麼損害(現實傷害),讓防護從「安全/危險」升級為精準定位的診斷系統。

  • 5

    3. 影響函數驅動的資料進化實現「少即是多」

  • 6

    傳統大模型動輒需要百萬筆訓練資料,AgentDoc 1.5 透過「影響函數」精準篩選出對風險識別最有價值的黃金樣本,僅用約 1,000 筆即達頂尖性能,徹底顛覆「資料越多越好」的慣性思維。

  • 7

    4. 輕量級設計實現真正的實時防護

  • 8

    8 億至 80 億參數的小型架構讓推理延遲極低,能作為獨立的線上驗證器無縫接入既有智能體系統,不需重新訓練原有模型,部署門檻極低,在 R-Judge 與 ATBench Pro 等嚴苛基準測試中仍能與 GPT-5.4 抗衡。

  • 9

    --

實用技巧與重點

乾貨
  • 訓練資料量:約 1,000 筆(業界通常需百萬級)
  • 模型參數量:8 億(800M)至 80 億(8B)
  • 核心技術:影響函數驅動的資料進化(Influence Function-based Data Evolution)
  • 安全分類框架:3D 分類法(風險來源 × 失敗模式 × 現實傷害)
  • 基準測試:R-Judge、ATBench Pro
  • 對比模型:GPT-5.4(在部分場景被 AgentDoc 1.5 超越)
  • 部署效益:Docker 級環境部署開銷降低兩個數量級(即 100 倍)
  • 硬體門檻:普通 8 核電腦可同時執行數萬個訓練環境
  • 資料生成三步驟:① 依 3D 分類法設計風險腳本 → ② 合成完整智能體互動長軌跡 → ③ 自動驗證剔除邏輯不通的樣本
  • 提及的同類系統:OpenClaw、Codex(作為部署對象而非競品)
  • 功能角色:線上驗證器(Online Verifier)、實時攔截盾、資訊流向監控器
  • --

結論

結論

AgentDoc 1.5 證明了精準的分類診斷加上極高品質的少量資料,足以讓輕量級模型在 AI 智能體安全防護上媲美千億參數巨獸,且部署成本低 100 倍。

完整解析

詳細

隨著 OpenClaw、Codex 等開放世界 AI 智能體開始大規模落地,AI 的角色發生了本質性轉變:它們不再只是回答問題,而是真正在現實環境中執行操作——修改程式碼、呼叫外部工具、乃至重寫整個工作區。這種「行動力」讓 AI 的危險係數呈指數上升。一個被惡意提示詞誘導的智能體,可能在無人察覺的情況下植入惡意程式碼、污染持久化記憶體(讓定時炸彈潛伏在未來的操作中),或是把公司機密郵件發送到外部攻擊者的頻道。傳統的文字過濾護欄面對這種跨環境、跨工具的動態攻擊鏈,幾乎形同虛設。

AgentDoc 1.5 的解法從診斷框架出發。研究團隊設計了一套「3D 安全分類法」,把每一起安全事件拆解為三個維度:威脅從哪條門縫進來(風險來源,例如使用者故意輸入越獄指令,還是智能體讀取了被篡改的工具回饋)、執行鏈在哪一步崩潰(失敗模式,例如呼叫未授權高危工具,或把多個合法工具串聯成攻擊鏈)、以及最終在現實中砸出多大的坑(現實傷害,例如系統癱瘓、帳戶盜刷、用戶隱私外洩)。這個框架讓安全判斷從二元的「危險/安全」升級為三維立體的精準定位。

在資料層面,研究團隊的做法同樣反直覺。他們沒有追求百萬級訓練資料,而是透過「影響函數驅動的資料進化」技術,像手術刀一樣切出對風險識別最有價值的黃金樣本——最終僅用約 1,000 筆高純度資料完成訓練。資料生成本身也是三步驟的嚴格流水線:先依 3D 分類法設計包含特定風險場景的腳本,再合成智能體與環境完整互動的長軌跡,最後透過自動驗證剔除邏輯不通的廢片,保留每一步都帶有清晰推理鏈的訓練樣本。這讓模型不只知道「什麼是危險」,更理解「為什麼危險」。

最終產出的 AgentDoc 1.5 僅有 8 億至 80 億參數,卻在 R-Judge 和 ATBench Pro 等嚴苛基準上與 GPT-5.4 打得有來有回,在特定場景甚至超越對方。在實際部署中,它扮演獨立的線上驗證器,以極低延遲全天候盯住智能體的每個動作,無需重新訓練原有系統即可無縫接入。它能在智能體即將執行破壞性操作的前一毫秒果斷攔截,也能監控跨工具、跨插件的資訊流向,防止自動化災難在無人監管時悄然引爆。更關鍵的是,其 Docker 環境部署開銷較同類方案降低了整整兩個數量級,意味著一台普通的 8 核電腦即可同時運行數萬個訓練環境,把大規模安全 AI 訓練的成本門檻徹底拆除。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。