Over the Shoulder - How AI is Reshaping Web3

Certora·5月19日週二·38 min英文

三句話摘要

Web3 資安研究員 Plummen 分享如何用 AI 代理革新智慧合約審計流程，並親手打造開源自主審計工具。 --- AI 讓攻防雙方的成本都大幅下降，安全審計員的不可替代性在於「理解系統全貌、提出正確問題」，而非手動翻查代碼——用省下的時間提升覆蓋深度，而不是壓縮周期，才是正確的使用姿態。 AI 降低了攻擊門檻，小型協議首當其衝

重點整理

重點

1
AI 降低了攻擊門檻，小型協議首當其衝
2
過去駭客不會花時間在鎖倉量低的廢棄合約上，但 AI 可以大規模語義掃描，自動偵測 2020 年遺留漏洞，成本幾乎為零。這是 2025 年 4 月出現約 30 起駭客事件的直接原因。
3
AI 改變的是問問題的方式，而非取代思考
4
審計員現在可以對代碼庫提問「傳入負數會怎樣」，由代理追蹤控制流並回答，但前提是審計員必須先理解系統全貌才能問對問題，因為「AI 能幫你思考，但無法幫你理解」。
5
省下的時間應用來提升品質，而非壓縮時程
6
若用 AI 將審計時間減半，但覆蓋率從 90% 降至 80%，反而更危險——因為 AI 同樣拉低了漏洞被利用的成本。Plummen 主張將節省的時間用於撰寫 Foundry 不變量測試，讓確信度從 90% 提升至 99.9%。
7
LLM 的錨定偏差是工具設計的核心挑戰
8
LLM 傾向找到第一個假設就停止，不會跨函式建立攻擊鏈（如 deposit + withdrawal 組合漏洞）。Plummen 透過「鏈式分析階段（Chain Analysis Phase）」將一個函式的後置條件與另一個函式的前置條件對應，系統性地補足這個盲點。
9
--

實用技巧與重點

乾貨

數字與成本
駭客成本：現在僅需「幾美分的 token 費用」
代碼理解時間：3 天 → 1 天（節省 1-2 天）
工具單次運行時長：V2 約 5-6 小時
工具代碼規模：Python 約 10k 行（主腳本）+ 多個驗證文件，含 Markdown 方法論文件共超過 20-30k 行
GitHub：250 commits、200+ stars
並行代理數量：每次啟動可達上百個
ARC-AGI 基準測試：GPT-4.5 與 GPT-4.7 得分低於 0.5%
工具與平台
審計輔助工具：Cursor、Anthropic（Claude）
代理框架：Plummen 自研開源工具（基於 Claude Code 以 vibe coding 方式構建）
知名 AI 審計工具：Cypher、Solace（Twitter 上有正面評價）、Riptide/Grego（專注 Bug Bounty）
測試框架：Foundry、invariant testing
方法論與步驟
協議類型自動偵測（如識別為 ERC-4626 Vault）
動態載入對應方法論問題清單（如 Vault 的 shares、rounding、redemption）
並行/遞迴生成多個代理深入探索
代理上下文達 100-200k token 時重新生成新代理
鏈式分析階段：將後置條件對應前置條件，發現跨函式攻擊鏈
懷疑者代理（Skeptics）驗證發現的準確性
具體案例
發現管理員可透過極端路徑耗盡 Vault（偽漏洞但揭示代碼路徑）
每次審計穩定產出 2-3 個「看標題就確信是真漏洞」的發現
--

結論

“AI 讓攻防雙方的成本都大幅下降，安全審計員的不可替代性在於「理解系統全貌、提出正確問題」，而非手動翻查代碼——用省下的時間提升覆蓋深度，而不是壓縮周期，才是正確的使用姿態。”

完整解析

詳細

Web3 安全領域在過去 12 個月內出現了一個結構性變化：攻擊的邊際成本大幅下降。Sertora 資安研究員 Plummen 指出，過去駭客不會費心分析一個鎖倉量僅 10 萬美元、幾乎無人使用的廢棄合約，因為人工審查的機會成本太高。但現在，AI 代理可以對這類合約進行大規模語義掃描，幾美分的 token 費用就能找到 2020 年遺留的漏洞並提示利用路徑。這直接解釋了 2025 年 4 月接近 30 起駭客事件的密集爆發——並非工具突破性進化，而是攻擊經濟學的根本改變。

在日常審計工作中，Plummen 表示 AI 最大的幫助在於消除「冷啟動」痛苦。過去面對一個新協議，需要花 3 天時間自行梳理入口點、狀態變更與合約交互；現在透過 AI 工具，1 天內就能獲得完整的協議概覽。他強調，省下的時間不應用來壓縮審計周期，而應用於提升品質——讓 AI 自動生成 500 行 Foundry 測試腳本，將確信度從 90% 推向 99.9%。他警告：若用 AI 只是為了「做兩倍的工作」，而不是「把同樣的工作做得更好」，審計師等於是在降低自己的責任心，同時 AI 也在降低攻擊者的成本——這是一個危險的不對稱。

Plummen 花費大量時間打造的開源工具，核心設計是對抗 LLM 的「錨定偏差」。他觀察到 LLM 傾向在發現第一個假設後就停止深挖，無法自行建立跨函式的攻擊鏈——例如 deposit 函式與 withdrawal 函式各自看起來無問題，但組合起來卻產生漏洞。他的解法是設計一個「鏈式分析階段」，系統性地將一個函式的後置條件與另一個函式的前置條件進行配對，再由懷疑者代理驗證。工具會根據自動偵測到的協議類型（如 ERC-4626 Vault）動態載入對應的方法論問題清單，並在代理上下文飽和（約 100-200k token）時自動重新生成新代理，整個流程完全自主，單次運行約 5-6 小時。

在更宏觀的層面，Plummen 以 ARC-AGI 基準測試（GPT-4.5 和 GPT-4.7 得分低於 0.5%）類比說明 LLM 的根本限制：它能理解局部規則，卻無法推理出整個系統的邏輯；它會把新協議錯誤聯想為它熟悉的舊協議（「這看起來像 Uniswap」），而非從第一性原理重新分析。因此他認為，在可預見的未來，審計員的核心價值不在於速度，而在於「理解全新系統、提出正確問題」的能力——這是任何現有 LLM 都無法真正替代的。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Over the Shoulder - How AI is Reshaping Web3

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「Web3 安全」的內容

How Safe is Your Bitcoin?!

Operation AudiA6: The $542 Million Money Laundering Network Behind Global Cybercrime

深度观察：Q2黑客攻击创历史新高，DeFi安全体系全面溃败 | 七十起攻击与7.46亿损失 | 从亡羊补牢到未雨绸缪