July 24|05 專題討論 | 前瞻 AI 安全論壇:AI 風險、治理與產業實踐 Day 1
三句話摘要
來自美台政府與國家實驗室的專家,圍繞 AI 安全標準、紅隊測試實務與國際協作展開跨域圓桌討論。 AI 安全評測必須從靜態 benchmark 走向動態、分層、持續監控的體系,而台灣繁體中文資料與產業深度是當前國際合作中真正不可替代的稀缺資源。 動態 benchmark 優於靜態:單一固定題目無法反映模型在不同 prompt 措辭下的表現差異;透過自動生成大量變體,可量測模型的可重現性與不確定性,且比傳統人工命題的 SAT/GRE 更具擴充性。
重點整理
重點- 1
動態 benchmark 優於靜態:單一固定題目無法反映模型在不同 prompt 措辭下的表現差異;透過自動生成大量變體,可量測模型的可重現性與不確定性,且比傳統人工命題的 SAT/GRE 更具擴充性。
- 2
紅隊測試的核心難題是「模型知道什麼」vs.「模型能做什麼」:辨識模型是否掌握危險知識只是第一步,更困難的是評估它在有工具存取權時能否實際執行危害行為(如合成化武),且這類測試本身就存在不小的安全風險。
- 3
AI 評測需從單一模型延伸到整體系統:RAG、MCP、A2A 等外掛元件會改變模型行為,OWASP Top 10 LLM 威脅既包含傳統系統安全,也包含針對 AI 模型本身的攻擊鏈(kill chain),兩者都必須測試。
- 4
國際平台能加速標準收斂並確保生態系互通:如同智慧型手機最終收斂為 iOS/Android 兩大生態系,全球基礎模型也可能只剩少數主流體系;統一標準可降低 RAG/Agent 開發者的適配成本,避免碎片化。
實用技巧與重點
乾貨- 標準與框架
- ISO/IEC 24028:AI 風險管理指引
- ISO 27090:AI 安全通用標準(需依產業客製化)
- NIST AI Risk Management Framework:強調可信度、透明度、可問責性
- EU AI Act:高風險 AI 系統強制風險評估與上市後監控
- IEC:AI 應用於能源電子元件的標準制定中
- OWASP Top 10 LLM:含 prompt injection、jailbreak 等威脅向量
- International Network of AI Safety Institutes:11 國參與,由 NIST 主辦
- 工具與模型
- LLM-as-a-Judge(LLM judge):自動化評估模型輸出
- AutoML(Cindy 與 Brian 合作的化學領域紅隊案例)
- TAIDE:台灣自研繁體中文模型
- Multilingual-BERT:早期多語言模型,繁中表現曾偏低
- DeepSeek:被點名為對 jailbreak 防禦較弱的模型案例
- 台灣本地案例
- Trend Micro 在 COMPUTEX 2025 展示:以數位孿生(digital twin)進行藍隊/紅隊演練,找出弱點後回推至實體系統修復
- CyCraft(奧義智慧)在 CraftCon 2025 展示:用 LLM 解讀 CTI 報告,自動生成攻擊腳本並逐步執行 AI kill chain
- 台北市政府:與學術界及資安廠商合作,對 AI 公共服務聊天機器人進行紅隊測試,發現 prompt injection 與資料外洩漏洞並完成修補
- NICS 評測生態系架構
- 自動化測試指標(5 項):準確性、可靠性、公平性、隱私、安全
- 手動評測指標:另外 5 項尚未能自動化
- 角色分工:NICS 為認證機構、ITRI 為測試實驗室,未來將擴展至各產業專屬測試實驗室
- 台灣獨特貢獻
- 唯一繁體中文、無審查的民主國家,可提供未受政治偏見污染的中文訓練資料
- 半導體、IC 設計、ICT、製造業為 AI 模型客製化的強勢領域
結論
結論“AI 安全評測必須從靜態 benchmark 走向動態、分層、持續監控的體系,而台灣繁體中文資料與產業深度是當前國際合作中真正不可替代的稀缺資源。”
完整解析
詳細本場圓桌討論聚焦於三個核心議題:AI 安全標準的現況與缺口、紅隊測試的實務經驗,以及如何推動國際跨域合作。與會者來自美國國家實驗室(太平洋西北國家實驗室、勞倫斯利佛摩國家實驗室)、台灣政府機構(國家資安研究院 NICS、台北市政府資訊局),背景橫跨研究、工程與公共政策,討論視角因此相當多元。
在標準與法規層面,與會者普遍同意目前 ISO、NIST、EU AI Act 等框架各有側重,但尚無一套被全球認可的統一基準。林盈達指出,未來架構應是「通用基礎標準 + 各產業客製化標準」的雙層體系,而現有 benchmark 的最大問題在於靜態性——同一 prompt 稍作改寫,模型表現就可能大幅波動。他以傳統考試作對比:AI 測試資料可由另一個模型自動生成、每次皆不同,且可大量產出,這反而讓 AI 評測比 SAT/GRE 更容易做到動態化與自動化。此外,真實部署的 AI 產品往往是「基礎模型+RAG+MCP+A2A」的黑盒子,測試者必須先釐清自己究竟在評測哪個層次。
在紅隊測試的實戰經驗上,Karl 點出最棘手之處:判斷模型「知道某件危險事情」只是起點,真正的挑戰是評估模型在有工具權限的情況下能否付諸實行——例如協助合成生化武器。這類測試本身就存在不可忽視的安全風險,測試環境的設計必須極為謹慎。Cindy 則強調領域專家的時間是最大瓶頸:化學、生醫等高風險領域的專家不僅要提問,還要對模型的回應進行多輪反覆評估,並判斷「答案是普通、奇怪,還是真正危險」,這在規模化上面臨嚴峻挑戰。台北市政府的趙士隆則分享了公部門的實際案例:與大學及資安廠商合作,對市府 AI 聊天機器人進行紅隊測試,成功發現並修補多個 prompt injection 與資料外洩漏洞,也藉此提升了內部同仁的 AI 安全意識。
在國際合作議題上,多位與會者提到「先從對話開始」——像本次研討會這樣的雙邊論壇,是凝聚共識的起點。林盈達以智慧型手機生態系作類比:全球基礎模型未來可能只剩少數主流體系,若標準提前收斂,RAG 與 Agent 開發者就不必針對數十個不同基礎模型分別適配,這是推動國際標準的隱性紅利。針對「台灣能貢獻什麼」的提問,Karl 與 Cindy 均強調,台灣是唯一提供無審查繁體中文資料的自由民主國家,且繁體中文相較於網路上氾濫的簡體中文屬於「低資源語言」,使用不同書寫系統的中文測試 LLM 的安全機制是個未被充分研究的問題,他們在準備本次工作坊時才意識到這個盲點。林盈達補充,台灣在半導體、IC 設計與製造業的深厚積累,同樣是推動這些產業 AI 模型客製化評測標準的重要基礎。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


