AI能力首次「官方認證」失控:Anthropic為何緊急雪藏Claude Mythos?
三句話摘要
Anthropic 最新 AI 模型以不到 50 美元發現 27 年隱藏漏洞,因能力過強而決定不公開發布,並啟動「玻璃翼計畫」聯合 40 個機構以攻代守強化全球網路安全。 --- AI 最危險的能力不是刻意設計出來的,而是通用智能提升後自然溢出的副產品——這意味著我們對 AI 安全的所有舊有假設都必須從根本上重構。 1. AI 能力已達人類頂尖駭客水準,且成本極低。 新模型以不到 50 美元找出 OpenBSD 27 年來無人察覺的漏洞,還能自主將漏洞武器化、串聯多步攻擊鏈繞過複雜安全機制取得最高權限,代表 AI 的「視野」已超越無數代頂尖人類專家的集體努力。
重點整理
重點- 1
1. AI 能力已達人類頂尖駭客水準,且成本極低。 新模型以不到 50 美元找出 OpenBSD 27 年來無人察覺的漏洞,還能自主將漏洞武器化、串聯多步攻擊鏈繞過複雜安全機制取得最高權限,代表 AI 的「視野」已超越無數代頂尖人類專家的集體努力。
- 2
2. AI 最危險的能力是通用智能提升後「自然溢出」的副產品,而非刻意訓練的結果。 正如教孩子全科知識後他自然學會寫小說,新模型的駭客能力源於對程式碼與邏輯的深度理解,不是專門攻擊訓練的產物——這徹底顛覆了「不刻意訓練就安全」的舊有假設。
- 3
3. Anthropic 以「玻璃翼計畫」回應,聯合約 40 個機構,以 AI 之矛打造 AI 之盾。 計畫提供 1 億美元 API 積分與 400 萬美元現金資助,系統性地用新模型的漏洞偵測能力修補全球數位基礎設施,但這場大規模動員本身也坦承:安全治理已嚴重落後於技術發展速度。
- 4
4. 頂尖模型的管控將引發全球主權 AI 競賽,開源生態提供個人的平衡路徑。 一國自我限制,他國必然加速追趕,模式與半導體出口管制後的晶片競賽高度相似;而 Linux 基金會數據顯示開源 AI 已被大規模採用,為個人與小型團隊提供去中心化的低風險參與路徑。
- 5
--
實用技巧與重點
乾貨- 核心測試數據
- SWE Bench Pro:新模型 77.8%,Opus 4.6 為 53.4%
- HLE(無工具):新模型 56.8%,超越需工具輔助的 GPT-4 Pro
- OpenBSD 漏洞:潛伏 27 年,發現成本 < 50 美元
- Firefox 漏洞攻擊對比:Opus 4.6 數百次嘗試成功 2 次;新模型成功 180 億次,其中 29 次達到更深層的暫存器控制
- Token 效率:特定瀏覽任務耗用僅前代五分之一(提升 5 倍)
- 定價
- 輸入:$25 美元 / 百萬 Token
- 輸出:$125 美元 / 百萬 Token
- 玻璃翼計畫(Project Glasswing)
- 合作機構:約 40 個
- 核心夥伴:Apple、Google、Microsoft、NVIDIA、Cisco
- 激勵資源:1 億美元 API 使用積分
- 現金資助:400 萬美元直接撥給 OpenSSF 開源安全基金會
- 開源 AI 市場數據(Linux 基金會研究)
- 89% 的組織已採用某種形式的開源 AI
- 63% 的組織直接使用開源模型
- 涉及系統與平台
- 目標系統:OpenBSD、FreeBSD、Linux 核心、Firefox
- 比較模型:Claude Opus 4.6、GPT-4 Pro
- 推薦入門資源:Hugging Face、Linux Foundation AI and Data
- --
結論
結論“AI 最危險的能力不是刻意設計出來的,而是通用智能提升後自然溢出的副產品——這意味著我們對 AI 安全的所有舊有假設都必須從根本上重構。”
完整解析
詳細這支影片圍繞 Anthropic 一款尚未對外公開的最新 AI 模型,從性能、風險、應對策略到未來意涵四個層次展開論述。
在性能層面,新模型在所有主流基準測試中全面超越同期競爭者。HLE 評測中,它無需任何工具輔助便得到 56.8 分,超越了需要工具協助才能達到類似水準的 GPT-4 Pro;在模擬真實軟體工程能力的 SWE Bench Pro 中,它以 77.8% 大幅領先前代旗艦 Opus 4.6 的 53.4%,差距近 25 個百分點,幾乎不像同一代產品的較量。更反常的現象是:儘管其 Token 使用效率是前代的 5 倍,定價卻反向上漲至每百萬輸入 Token 25 美元、輸出 125 美元。講者指出,這標誌著頂尖 AI 的定價邏輯已從「成本考量」轉向「價值本身」——當一個模型能直接創造極高的商業價值,它就成為一種稀缺的戰略級服務。
在風險層面,最令人震撼的證據來自一系列針對真實世界軟體的網路安全攻擊演練。新模型以不到 50 美元的運算成本,在以安全著稱的 OpenBSD 程式碼庫中精準找出一個潛藏了整整 27 年、連幾代頂尖人類安全專家都未能察覺的漏洞。針對 FreeBSD 的測試中,它不僅發現了遠端程式碼執行漏洞,還完全自主地編寫出一套可直接使用的攻擊程式,從發現到武器化一步到位,全程零人類介入。在攻擊 Linux 核心時,它更展現出只有頂尖駭客才具備的戰略思維:將多個看似無關的小漏洞串聯成攻擊鏈,逐步繞過現代系統最複雜的防禦機制,最終取得最高權限。最直觀的對比出現在 Firefox 漏洞攻擊測試中:前代 Opus 4.6 在數百次嘗試裡只成功 2 次,而新模型成功了 180 億次,其中 29 次更達到更深層的暫存器控制。講者特別強調,根據 Anthropic 官方系統卡,這些駭客技能並非來自專門的攻擊訓練,而是模型通用智能提升後自然溢出的副產品——正如一個受過全面通識教育的孩子有一天自然寫出完整的小說,新模型只是因為對程式碼與邏輯的理解太深,便自然學會了如何發動攻擊。這徹底顛覆了「不刻意訓練攻擊能力便能保持安全」的舊有假設,也讓 Elon Musk「AI 比核武更危險」的警告在此刻顯得不再遙遠。
面對這股近乎失控的力量,Anthropic 選擇的不是封存,而是「以 AI 之矛打造 AI 之盾」。他們啟動了代號「玻璃翼計畫(Project Glasswing)」的防禦行動,聯合約 40 個頂級機構——涵蓋 Apple、Google、Microsoft、NVIDIA、Cisco 等科技與資安巨頭——系統性地利用新模型的漏洞偵測能力修補整個數位生態系統中潛藏數十年的安全缺陷。為驅動這個龐大聯盟,Anthropic 提供了高達 1 億美元的 API 使用積分,並向 OpenSSF 開源安全基金會直接注資 400 萬美元現金。然而,需要如此大規模動員本身恰恰揭露了一個更深層的警訊:AI 安全治理已嚴重落後於技術發展速度,Anthropic 也在官方文件中近乎坦白地承認「我們造出來的東西,我們自己也不確定能否完全掌控」,且預測未來 6 至 18 個月內其他競爭者便可能開發出同等級能力的模型。
從宏觀視野來看,此事件的漣漪效應將遠超網路安全本身。當一家美國頂尖公司為全人類安全選擇自我限制,其他國家勢必將其視為加速追趕的戰略機會,全球性的主權 AI 競賽因此成為必然,其模式與半導體出口管制後各國投入晶片自主研發的歷史高度相似。而對個人與小型團隊而言,這反而指向另一條機會之路:正在蓬勃發展的開源 AI 革命。根據 Linux 基金會研究,89% 的組織已採用開源 AI,63% 直接使用開源模型。講者建議將部分學習資源投入 Hugging Face 或 Linux Foundation AI and Data 等開源生態,以降低對昂貴閉源 API 的依賴,分散風險的同時抓住實際的職業紅利。封閉頂尖模型追求能力極限,開源生態追求應用廣度,兩者並非取代關係,而是共同構成 AI 完整未來版圖的兩條軌道。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


