AgentDoG 1.5：守护全新AI边界

三句話摘要

AgentDoc 1.5 是一套僅用約 1,000 筆高品質訓練資料打造的輕量級 AI 智能體安全防護框架，能以極低延遲在現實世界中攔截 AI 的危險行為。 --- AgentDoc 1.5 證明了精準的分類診斷加上極高品質的少量資料，足以讓輕量級模型在 AI 智能體安全防護上媲美千億參數巨獸，且部署成本低 100 倍。 1. AI 智能體的行動化帶來全新威脅層級

重點整理

重點

1
1. AI 智能體的行動化帶來全新威脅層級
2
當 AI 從生成文字跨越到直接操作系統終端、呼叫外部工具，錯誤的代價不再只是錯誤資訊，而是工作區崩潰、記憶體污染、核心資料外洩。現有的靜態文本過濾護欄無法應對這種動態、跨環境的攻擊鏈。
3
2. 3D 分類法提供立體診斷而非二元判斷
4
框架把安全事件拆解為三個維度：威脅從哪裡進來（風險來源）、智能體在執行鏈的哪一步失控（失敗模式）、最終在現實中造成什麼損害（現實傷害），讓防護從「安全/危險」升級為精準定位的診斷系統。
5
3. 影響函數驅動的資料進化實現「少即是多」
6
傳統大模型動輒需要百萬筆訓練資料，AgentDoc 1.5 透過「影響函數」精準篩選出對風險識別最有價值的黃金樣本，僅用約 1,000 筆即達頂尖性能，徹底顛覆「資料越多越好」的慣性思維。
7
4. 輕量級設計實現真正的實時防護
8
8 億至 80 億參數的小型架構讓推理延遲極低，能作為獨立的線上驗證器無縫接入既有智能體系統，不需重新訓練原有模型，部署門檻極低，在 R-Judge 與 ATBench Pro 等嚴苛基準測試中仍能與 GPT-5.4 抗衡。
9
--

實用技巧與重點

乾貨

訓練資料量：約 1,000 筆（業界通常需百萬級）
模型參數量：8 億（800M）至 80 億（8B）
核心技術：影響函數驅動的資料進化（Influence Function-based Data Evolution）
安全分類框架：3D 分類法（風險來源 × 失敗模式 × 現實傷害）
基準測試：R-Judge、ATBench Pro
對比模型：GPT-5.4（在部分場景被 AgentDoc 1.5 超越）
部署效益：Docker 級環境部署開銷降低兩個數量級（即 100 倍）
硬體門檻：普通 8 核電腦可同時執行數萬個訓練環境
資料生成三步驟：① 依 3D 分類法設計風險腳本 → ② 合成完整智能體互動長軌跡 → ③ 自動驗證剔除邏輯不通的樣本
提及的同類系統：OpenClaw、Codex（作為部署對象而非競品）
功能角色：線上驗證器（Online Verifier）、實時攔截盾、資訊流向監控器
--

結論

“AgentDoc 1.5 證明了精準的分類診斷加上極高品質的少量資料，足以讓輕量級模型在 AI 智能體安全防護上媲美千億參數巨獸，且部署成本低 100 倍。”

完整解析

詳細

隨著 OpenClaw、Codex 等開放世界 AI 智能體開始大規模落地，AI 的角色發生了本質性轉變：它們不再只是回答問題，而是真正在現實環境中執行操作——修改程式碼、呼叫外部工具、乃至重寫整個工作區。這種「行動力」讓 AI 的危險係數呈指數上升。一個被惡意提示詞誘導的智能體，可能在無人察覺的情況下植入惡意程式碼、污染持久化記憶體（讓定時炸彈潛伏在未來的操作中），或是把公司機密郵件發送到外部攻擊者的頻道。傳統的文字過濾護欄面對這種跨環境、跨工具的動態攻擊鏈，幾乎形同虛設。

AgentDoc 1.5 的解法從診斷框架出發。研究團隊設計了一套「3D 安全分類法」，把每一起安全事件拆解為三個維度：威脅從哪條門縫進來（風險來源，例如使用者故意輸入越獄指令，還是智能體讀取了被篡改的工具回饋）、執行鏈在哪一步崩潰（失敗模式，例如呼叫未授權高危工具，或把多個合法工具串聯成攻擊鏈）、以及最終在現實中砸出多大的坑（現實傷害，例如系統癱瘓、帳戶盜刷、用戶隱私外洩）。這個框架讓安全判斷從二元的「危險/安全」升級為三維立體的精準定位。

在資料層面，研究團隊的做法同樣反直覺。他們沒有追求百萬級訓練資料，而是透過「影響函數驅動的資料進化」技術，像手術刀一樣切出對風險識別最有價值的黃金樣本——最終僅用約 1,000 筆高純度資料完成訓練。資料生成本身也是三步驟的嚴格流水線：先依 3D 分類法設計包含特定風險場景的腳本，再合成智能體與環境完整互動的長軌跡，最後透過自動驗證剔除邏輯不通的廢片，保留每一步都帶有清晰推理鏈的訓練樣本。這讓模型不只知道「什麼是危險」，更理解「為什麼危險」。

最終產出的 AgentDoc 1.5 僅有 8 億至 80 億參數，卻在 R-Judge 和 ATBench Pro 等嚴苛基準上與 GPT-5.4 打得有來有回，在特定場景甚至超越對方。在實際部署中，它扮演獨立的線上驗證器，以極低延遲全天候盯住智能體的每個動作，無需重新訓練原有系統即可無縫接入。它能在智能體即將執行破壞性操作的前一毫秒果斷攔截，也能監控跨工具、跨插件的資訊流向，防止自動化災難在無人監管時悄然引爆。更關鍵的是，其 Docker 環境部署開銷較同類方案降低了整整兩個數量級，意味著一台普通的 8 核電腦即可同時運行數萬個訓練環境，把大規模安全 AI 訓練的成本門檻徹底拆除。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

AgentDoG 1.5：守护全新AI边界

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Claude Haiku 4.5 Jailbreak

How Hackers Trick AI Models (Prompt Injection Explained)