KeyFrame

AI 風險與治理|黃彥男 中研院資安專題中心執行長_ 2026 叡揚 Solutions Day

叡揚資訊·5月27日週三·22 min中文

三句話摘要

中研院資安專題中心執行長黃彥男從技術、攻擊手法與立法實務三個維度,系統性說明AI風險管理與各國治理策略。 AI Agent帶來的效益與風險同步爆炸式成長,技術研發、評測機制與作用法立法三條線必須並行推進,風險管理的速度若跟不上應用擴散的速度,代價將難以承受。 AI Agent是當前最大的雙面刃:Gartner預測AI Agent在2025年達到熱潮高峰,確實成真。Agent能代理執行複雜任務、彼此互相學習,但也因此成為攻擊面最廣的新型風險載體,一家新創公司因未妥善管理Agent,導致公司資料全部被刪除。

重點整理

重點
  • 1

    AI Agent是當前最大的雙面刃:Gartner預測AI Agent在2025年達到熱潮高峰,確實成真。Agent能代理執行複雜任務、彼此互相學習,但也因此成為攻擊面最廣的新型風險載體,一家新創公司因未妥善管理Agent,導致公司資料全部被刪除。

  • 2

    生成式AI大幅降低攻擊門檻:2023年底出現的論文示範如何以ChatGPT生成惡意程式,此後同類工具大量湧現;Entropy發現過去從未被揭露的BSD漏洞,直接威脅大量金融機構所依賴的系統;撰寫一支惡意程式從過去數個月縮短至數小時。

  • 3

    模型本身也是攻擊目標:攻擊者可透過membership inference attack從醫療LLM中探詢特定病患的敏感資訊(如癌症、愛滋病),無需取得完整資料庫;聯邦式學習雖被視為隱私保護方案,但透過gradient洩漏仍可反推訓練資料,安全性遠低於一般認知。

  • 4

    各國立法路線分歧,台灣走中間道路:歐盟明確列出「不可接受風險」類別直接禁止,違者追究刑事責任;美國以行政命令取代聯邦立法,理由是AI競爭需要彈性且現有領域法規已足夠;台灣《AI基本法》採鼓勵創新與保障人權並重,下設十六條風險分類框架,各領域主管機關須在兩年內完成作用法。

實用技巧與重點

乾貨
  • 工具:Notebook LLM(簡報製作)、ChatGPT、Entropy(漏洞發掘)
  • 攻擊手法:Prompt injection(DAN「Do Anything Now」角色扮演攻擊)、Membership inference attack、Model extraction、Gradient-based data reconstruction
  • 漏洞:BSD(Linux)漏洞被Entropy大量發掘,影響金融機構
  • 惡意程式生成時間:從數個月縮短至數小時乃至數分鐘
  • Gartner資料:AI Agent為2024年底至2025年預測熱門主題,預測命中
  • OWASP LLM Top 10:龍蝦(Claude?)官方列出十大風險點,涵蓋input、processing、output三層
  • 台灣《AI基本法》:2025年8月行政院通過,2025年12月立法院通過;七大原則含隱私保護、透明可解釋性、資訊安全、問責性、永續;分基本法→第十六條風險框架→各領域作用法三層;各部會兩年內完成作用法
  • 歐盟AI Act:四級分類(禁止/高風險/有限風險/最低風險),違反最高層級具刑事責任
  • 美國:聯邦傾向不立法,科羅拉多州曾立法但川普上任後施壓放寬;加州已針對自駕車立法,超速罰單歸屬營運公司,警察可遠端要求車輛停靠
  • 台灣AI四大建設:預計投入逾一千億新台幣建立生態系
  • 中研院研究方向:後量子密碼、聯邦式學習安全、AI攻防、假新聞偵測、Deepfake Detection與Prevention

結論

結論

AI Agent帶來的效益與風險同步爆炸式成長,技術研發、評測機制與作用法立法三條線必須並行推進,風險管理的速度若跟不上應用擴散的速度,代價將難以承受。

完整解析

詳細

AI技術的快速演進正在徹底改變軟體產業結構。程式碼生成工具讓一支小型團隊得以取代以往需要大批工程師的工作,微軟、亞馬遜等大型科技公司紛紛裁減初階軟體工程師,應屆資訊系畢業生求職難度也隨之攀升。其中,AI Agent是2025年最受關注的技術——它不再只是回答問題的工具,而是能代理執行複雜任務、甚至進入聊天室自主學習新技能的智慧代理人,因此既是效率利器,也是攻擊面最廣的新型風險載體。某新創公司因未妥善管理部署的Agent,導致公司資料遭全數刪除,這類事件已不只發生一次。

在攻擊技術層面,生成式AI正快速拉平攻擊者與防禦者的能力落差。Prompt injection是目前最常見的手法:透過角色扮演腳本(如「DAN — Do Anything Now」),誘騙大型語言模型繞過安全守衛;暗網上已流通大量現成攻擊腳本,複製貼上即可使用。更值得警惕的是Entropy等AI工具,它發現了大量過去從未被揭露的BSD漏洞,讓針對金融機構的攻擊成本大幅下降。在模型層面,即使不竊取整個資料庫,攻擊者也能透過membership inference attack從醫療LLM中探詢特定病患的敏感資訊;聯邦式學習雖號稱隱私安全,但透過gradient分析仍可反推訓練資料,既有安全假設需要重新審視。

面對這些風險,各國的立法路線出現明顯分歧。歐盟AI Act採取最嚴格的四級分類,明確列出「不可接受風險」類別予以全面禁止,影像辨識在特定場域的應用亦在禁止之列,違者承擔刑事責任。美國則基於科技競爭考量,聯邦層級傾向以行政命令取代正式立法,美國國家技術辦公室主任在APEC部長級會議上明確反對各國立法,其邏輯是:各領域既有法規(衛生、交通等)已能規範AI應用,重複立法等同綁住自身手腳,也間接限制美國科技產品出口。台灣則在兩者之間尋求平衡:《AI基本法》以七大原則為核心,強調創新、人權、資訊安全並重,並建立基本法→風險分類框架(第十六條)→各領域作用法的三層架構,要求各主管機關於兩年內完成所屬領域的細部立法,兒少保護被立法委員列為特別重視的優先議題。

在研究端,中研院資安專題中心目前的研究方向涵蓋後量子密碼、聯邦式學習的安全性驗證、以AI進行網路攻防,以及假新聞與Deepfake的偵測與預防。黃彥男強調,AI帶來的研究問題多到做不完,但風險管理的優先序不應落後於應用推廣——若缺乏適當的技術與法制配套,AI的大規模應用將是一場災難。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 安全」的內容

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer
48 min
AI 安全英文6月19日

Breaching LLM-Powered Applications: Overcoming Security and Privacy Challenges by Brian Vermeer

Spring I/O

  • 傳統漏洞在 LLM 時代被升級放大:路徑穿越(Path Traversal)和 SQL 注入等十幾年前就存在的漏洞,在 LLM 應用中可被串接成更危險的攻擊——攻擊者不再只是讀取資料,而是讓 LLM 代為執行惡意操作,使影響範圍大幅擴大。
  • RAG 的向量資料庫是可被靜默污染的攻擊面:RAG 系統將外部文件分塊注入 Prompt,若攻擊者能藉由路徑穿越覆蓋原始文件,毒化內容就會在下次重新 chunk 時悄悄進入向量資料庫,並在未來某個時間點被 LLM 信任執行,且不留下即時痕跡。
  • 模型越弱,提示注入越容易成功:GPT-3.5 Turbo 可被「忽略所有先前指令」輕易繞過,而 GPT-4.0 對系統訊息的遵守程度顯著更好;選用能力不足的小模型處理關鍵業務,是高風險決策。
How Hackers Trick AI Models (Prompt Injection Explained)
編輯精選
21 min
AI 安全英文6月19日

How Hackers Trick AI Models (Prompt Injection Explained)

Perfology

  • 新模型不等於全面安全。 直接指令覆蓋在 GPT 3.5 奏效,GPT 4.1 對此幾乎免疫;但結構化輸出攻擊仍可突破 GPT 4.1,反而 GPT 4.0(Omni 模型)因訓練更全面而抵抗力更強。模型版本與攻擊向量之間的關係並非線性。
  • 技術組合是突破防禦的關鍵。 單一手法在強模型上可能失效,但將角色扮演、多輪操控、Payload 分割交叉使用,即便是設定了嚴格系統提示的模型,仍可能逐步洩漏機密資訊。
  • 攻擊媒介隱藏在日常工作流程中。 惡意指令可藏在使用者主動下載的 Markdown 文件、白底白字的 PDF、MCP 服務的輸入輸出之間,攻擊者無需直接存取系統即可觸發注入。