KeyFrame

Over the Shoulder - How AI is Reshaping Web3

Certora·5月19日週二·38 min英文

三句話摘要

Web3 資安研究員 Plummen 分享如何用 AI 代理革新智慧合約審計流程,並親手打造開源自主審計工具。 --- AI 讓攻防雙方的成本都大幅下降,安全審計員的不可替代性在於「理解系統全貌、提出正確問題」,而非手動翻查代碼——用省下的時間提升覆蓋深度,而不是壓縮周期,才是正確的使用姿態。 AI 降低了攻擊門檻,小型協議首當其衝

重點整理

重點
  • 1

    AI 降低了攻擊門檻,小型協議首當其衝

  • 2

    過去駭客不會花時間在鎖倉量低的廢棄合約上,但 AI 可以大規模語義掃描,自動偵測 2020 年遺留漏洞,成本幾乎為零。這是 2025 年 4 月出現約 30 起駭客事件的直接原因。

  • 3

    AI 改變的是問問題的方式,而非取代思考

  • 4

    審計員現在可以對代碼庫提問「傳入負數會怎樣」,由代理追蹤控制流並回答,但前提是審計員必須先理解系統全貌才能問對問題,因為「AI 能幫你思考,但無法幫你理解」。

  • 5

    省下的時間應用來提升品質,而非壓縮時程

  • 6

    若用 AI 將審計時間減半,但覆蓋率從 90% 降至 80%,反而更危險——因為 AI 同樣拉低了漏洞被利用的成本。Plummen 主張將節省的時間用於撰寫 Foundry 不變量測試,讓確信度從 90% 提升至 99.9%。

  • 7

    LLM 的錨定偏差是工具設計的核心挑戰

  • 8

    LLM 傾向找到第一個假設就停止,不會跨函式建立攻擊鏈(如 deposit + withdrawal 組合漏洞)。Plummen 透過「鏈式分析階段(Chain Analysis Phase)」將一個函式的後置條件與另一個函式的前置條件對應,系統性地補足這個盲點。

  • 9

    --

實用技巧與重點

乾貨
  • 數字與成本
  • 駭客成本:現在僅需「幾美分的 token 費用」
  • 代碼理解時間:3 天 → 1 天(節省 1-2 天)
  • 工具單次運行時長:V2 約 5-6 小時
  • 工具代碼規模:Python 約 10k 行(主腳本)+ 多個驗證文件,含 Markdown 方法論文件共超過 20-30k 行
  • GitHub:250 commits、200+ stars
  • 並行代理數量:每次啟動可達上百個
  • ARC-AGI 基準測試:GPT-4.5 與 GPT-4.7 得分低於 0.5%
  • 工具與平台
  • 審計輔助工具:Cursor、Anthropic(Claude)
  • 代理框架:Plummen 自研開源工具(基於 Claude Code 以 vibe coding 方式構建)
  • 知名 AI 審計工具:Cypher、Solace(Twitter 上有正面評價)、Riptide/Grego(專注 Bug Bounty)
  • 測試框架:Foundry、invariant testing
  • 方法論與步驟
  • 協議類型自動偵測(如識別為 ERC-4626 Vault)
  • 動態載入對應方法論問題清單(如 Vault 的 shares、rounding、redemption)
  • 並行/遞迴生成多個代理深入探索
  • 代理上下文達 100-200k token 時重新生成新代理
  • 鏈式分析階段:將後置條件對應前置條件,發現跨函式攻擊鏈
  • 懷疑者代理(Skeptics)驗證發現的準確性
  • 具體案例
  • 發現管理員可透過極端路徑耗盡 Vault(偽漏洞但揭示代碼路徑)
  • 每次審計穩定產出 2-3 個「看標題就確信是真漏洞」的發現
  • --

結論

結論

AI 讓攻防雙方的成本都大幅下降,安全審計員的不可替代性在於「理解系統全貌、提出正確問題」,而非手動翻查代碼——用省下的時間提升覆蓋深度,而不是壓縮周期,才是正確的使用姿態。

完整解析

詳細

Web3 安全領域在過去 12 個月內出現了一個結構性變化:攻擊的邊際成本大幅下降。Sertora 資安研究員 Plummen 指出,過去駭客不會費心分析一個鎖倉量僅 10 萬美元、幾乎無人使用的廢棄合約,因為人工審查的機會成本太高。但現在,AI 代理可以對這類合約進行大規模語義掃描,幾美分的 token 費用就能找到 2020 年遺留的漏洞並提示利用路徑。這直接解釋了 2025 年 4 月接近 30 起駭客事件的密集爆發——並非工具突破性進化,而是攻擊經濟學的根本改變。

在日常審計工作中,Plummen 表示 AI 最大的幫助在於消除「冷啟動」痛苦。過去面對一個新協議,需要花 3 天時間自行梳理入口點、狀態變更與合約交互;現在透過 AI 工具,1 天內就能獲得完整的協議概覽。他強調,省下的時間不應用來壓縮審計周期,而應用於提升品質——讓 AI 自動生成 500 行 Foundry 測試腳本,將確信度從 90% 推向 99.9%。他警告:若用 AI 只是為了「做兩倍的工作」,而不是「把同樣的工作做得更好」,審計師等於是在降低自己的責任心,同時 AI 也在降低攻擊者的成本——這是一個危險的不對稱。

Plummen 花費大量時間打造的開源工具,核心設計是對抗 LLM 的「錨定偏差」。他觀察到 LLM 傾向在發現第一個假設後就停止深挖,無法自行建立跨函式的攻擊鏈——例如 deposit 函式與 withdrawal 函式各自看起來無問題,但組合起來卻產生漏洞。他的解法是設計一個「鏈式分析階段」,系統性地將一個函式的後置條件與另一個函式的前置條件進行配對,再由懷疑者代理驗證。工具會根據自動偵測到的協議類型(如 ERC-4626 Vault)動態載入對應的方法論問題清單,並在代理上下文飽和(約 100-200k token)時自動重新生成新代理,整個流程完全自主,單次運行約 5-6 小時。

在更宏觀的層面,Plummen 以 ARC-AGI 基準測試(GPT-4.5 和 GPT-4.7 得分低於 0.5%)類比說明 LLM 的根本限制:它能理解局部規則,卻無法推理出整個系統的邏輯;它會把新協議錯誤聯想為它熟悉的舊協議(「這看起來像 Uniswap」),而非從第一性原理重新分析。因此他認為,在可預見的未來,審計員的核心價值不在於速度,而在於「理解全新系統、提出正確問題」的能力——這是任何現有 LLM 都無法真正替代的。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「Web3 安全」的內容

How Safe is Your Bitcoin?!
編輯精選
88 min
Web3 安全英文6月19日

How Safe is Your Bitcoin?!

Maple Bitcoin

  • 假 App 詐騙手法已低門檻化:現今 AI 工具讓複製官方應用介面的技術門檻大幅降低,任何知名品牌(Ledger、Sparrow)都是仿冒目標。搜尋結果排名靠前的 App 不等於安全,用戶須從官方網站取得正確下載連結。
  • 硬體錢包的核心價值是隔離私鑰,但仍需配合正確行為:硬體錢包本身無法防護用戶主動輸入助記詞至惡意網站的行為,且無螢幕的錢包(Tangem、Trezor 基本款等)無法讓用戶在設備上核驗交易細節,形成地址掉包漏洞。Coldcard 搭配 Sparrow 的組合最大程度縮小攻擊面。
  • 威脅模式思考是自管的必要功課:火災、地震、竊盜、意外失憶、家人繼承等情境都需事先規劃。主持人建議用「不提示任何資訊、讓家人嘗試恢復錢包」作為壓力測試,確認繼承流程確實可行。
深度观察:Q2黑客攻击创历史新高,DeFi安全体系全面溃败 | 七十起攻击与7.46亿损失 | 从亡羊补牢到未雨绸缪
10 min
Web3 安全中文6月16日

深度观察:Q2黑客攻击创历史新高,DeFi安全体系全面溃败 | 七十起攻击与7.46亿损失 | 从亡羊补牢到未雨绸缪

Web3观察哨

  • 廢棄合約即定時炸彈: 智能合約一旦部署於公鏈便永久運行,即使項目方已停止維護、合約不可升級,黑客仍可針對殘留餘額發動攻擊,S-Tech Connect 案例說明「代碼不朽」是公鏈安全的根本隱患。
  • 行業激勵錯位導致防禦失敗: 項目方融資後需優先砸錢做市場和拉高 TVL 以支撐估值,將預算投入審計與安全機制反而拖慢增長,市場機制本身就不獎勵「防禦故事」,系統性漏洞因此得不到修補。
  • 去中心化信仰與安全機制互相矛盾: 引入緊急熔斷或多方暫停機制在技術上可行,但社群將其視為中心化復辟;然而服務億級用戶的金融市場必須具備基本風控,這是 DeFi 無法迴避的現實悖論。