Over the Shoulder - How AI is Reshaping Web3
三句話摘要
Web3 資安研究員 Plummen 分享如何用 AI 代理革新智慧合約審計流程,並親手打造開源自主審計工具。 --- AI 讓攻防雙方的成本都大幅下降,安全審計員的不可替代性在於「理解系統全貌、提出正確問題」,而非手動翻查代碼——用省下的時間提升覆蓋深度,而不是壓縮周期,才是正確的使用姿態。 AI 降低了攻擊門檻,小型協議首當其衝
重點整理
重點- 1
AI 降低了攻擊門檻,小型協議首當其衝
- 2
過去駭客不會花時間在鎖倉量低的廢棄合約上,但 AI 可以大規模語義掃描,自動偵測 2020 年遺留漏洞,成本幾乎為零。這是 2025 年 4 月出現約 30 起駭客事件的直接原因。
- 3
AI 改變的是問問題的方式,而非取代思考
- 4
審計員現在可以對代碼庫提問「傳入負數會怎樣」,由代理追蹤控制流並回答,但前提是審計員必須先理解系統全貌才能問對問題,因為「AI 能幫你思考,但無法幫你理解」。
- 5
省下的時間應用來提升品質,而非壓縮時程
- 6
若用 AI 將審計時間減半,但覆蓋率從 90% 降至 80%,反而更危險——因為 AI 同樣拉低了漏洞被利用的成本。Plummen 主張將節省的時間用於撰寫 Foundry 不變量測試,讓確信度從 90% 提升至 99.9%。
- 7
LLM 的錨定偏差是工具設計的核心挑戰
- 8
LLM 傾向找到第一個假設就停止,不會跨函式建立攻擊鏈(如 deposit + withdrawal 組合漏洞)。Plummen 透過「鏈式分析階段(Chain Analysis Phase)」將一個函式的後置條件與另一個函式的前置條件對應,系統性地補足這個盲點。
- 9
--
實用技巧與重點
乾貨- 數字與成本
- 駭客成本:現在僅需「幾美分的 token 費用」
- 代碼理解時間:3 天 → 1 天(節省 1-2 天)
- 工具單次運行時長:V2 約 5-6 小時
- 工具代碼規模:Python 約 10k 行(主腳本)+ 多個驗證文件,含 Markdown 方法論文件共超過 20-30k 行
- GitHub:250 commits、200+ stars
- 並行代理數量:每次啟動可達上百個
- ARC-AGI 基準測試:GPT-4.5 與 GPT-4.7 得分低於 0.5%
- 工具與平台
- 審計輔助工具:Cursor、Anthropic(Claude)
- 代理框架:Plummen 自研開源工具(基於 Claude Code 以 vibe coding 方式構建)
- 知名 AI 審計工具:Cypher、Solace(Twitter 上有正面評價)、Riptide/Grego(專注 Bug Bounty)
- 測試框架:Foundry、invariant testing
- 方法論與步驟
- 協議類型自動偵測(如識別為 ERC-4626 Vault)
- 動態載入對應方法論問題清單(如 Vault 的 shares、rounding、redemption)
- 並行/遞迴生成多個代理深入探索
- 代理上下文達 100-200k token 時重新生成新代理
- 鏈式分析階段:將後置條件對應前置條件,發現跨函式攻擊鏈
- 懷疑者代理(Skeptics)驗證發現的準確性
- 具體案例
- 發現管理員可透過極端路徑耗盡 Vault(偽漏洞但揭示代碼路徑)
- 每次審計穩定產出 2-3 個「看標題就確信是真漏洞」的發現
- --
結論
結論“AI 讓攻防雙方的成本都大幅下降,安全審計員的不可替代性在於「理解系統全貌、提出正確問題」,而非手動翻查代碼——用省下的時間提升覆蓋深度,而不是壓縮周期,才是正確的使用姿態。”
完整解析
詳細Web3 安全領域在過去 12 個月內出現了一個結構性變化:攻擊的邊際成本大幅下降。Sertora 資安研究員 Plummen 指出,過去駭客不會費心分析一個鎖倉量僅 10 萬美元、幾乎無人使用的廢棄合約,因為人工審查的機會成本太高。但現在,AI 代理可以對這類合約進行大規模語義掃描,幾美分的 token 費用就能找到 2020 年遺留的漏洞並提示利用路徑。這直接解釋了 2025 年 4 月接近 30 起駭客事件的密集爆發——並非工具突破性進化,而是攻擊經濟學的根本改變。
在日常審計工作中,Plummen 表示 AI 最大的幫助在於消除「冷啟動」痛苦。過去面對一個新協議,需要花 3 天時間自行梳理入口點、狀態變更與合約交互;現在透過 AI 工具,1 天內就能獲得完整的協議概覽。他強調,省下的時間不應用來壓縮審計周期,而應用於提升品質——讓 AI 自動生成 500 行 Foundry 測試腳本,將確信度從 90% 推向 99.9%。他警告:若用 AI 只是為了「做兩倍的工作」,而不是「把同樣的工作做得更好」,審計師等於是在降低自己的責任心,同時 AI 也在降低攻擊者的成本——這是一個危險的不對稱。
Plummen 花費大量時間打造的開源工具,核心設計是對抗 LLM 的「錨定偏差」。他觀察到 LLM 傾向在發現第一個假設後就停止深挖,無法自行建立跨函式的攻擊鏈——例如 deposit 函式與 withdrawal 函式各自看起來無問題,但組合起來卻產生漏洞。他的解法是設計一個「鏈式分析階段」,系統性地將一個函式的後置條件與另一個函式的前置條件進行配對,再由懷疑者代理驗證。工具會根據自動偵測到的協議類型(如 ERC-4626 Vault)動態載入對應的方法論問題清單,並在代理上下文飽和(約 100-200k token)時自動重新生成新代理,整個流程完全自主,單次運行約 5-6 小時。
在更宏觀的層面,Plummen 以 ARC-AGI 基準測試(GPT-4.5 和 GPT-4.7 得分低於 0.5%)類比說明 LLM 的根本限制:它能理解局部規則,卻無法推理出整個系統的邏輯;它會把新協議錯誤聯想為它熟悉的舊協議(「這看起來像 Uniswap」),而非從第一性原理重新分析。因此他認為,在可預見的未來,審計員的核心價值不在於速度,而在於「理解全新系統、提出正確問題」的能力——這是任何現有 LLM 都無法真正替代的。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


