最强模型Claude Mythos出炉 | Anthropic | 暂不对公众开放 | 玻璃之翼计划 | 编程能力跃升 | HLE轻松第一 | token消耗20% | 网络攻击风险加剧

Best Partners TV·4月8日週三·17 min中文

三句話摘要

Anthropic 發布僅限特定機構使用的超強模型 Claude Mythos，其漏洞挖掘能力已超越人類頂級安全專家，因此不對公眾開放。 Claude Mythos 的出現証明，AI 的通用推理能力一旦突破臨界點，其安全漏洞挖掘與自主利用能力便足以超越人類頂級專家，整個行業在 6 至 18 個月內必須建立起能夠應對此量級威脅的安全治理框架。 能力為通用推理的副產品，非專項訓練：Anthropic 明確指出，Mythos 的漏洞挖掘能力並非針對性訓練的結果，而是通用程式碼理解、邏輯推理與自主決策能力提升後自然溢出的副產品，說明模型的整體智能水準已達到新的量級。

重點整理

重點

1
能力為通用推理的副產品，非專項訓練：Anthropic 明確指出，Mythos 的漏洞挖掘能力並非針對性訓練的結果，而是通用程式碼理解、邏輯推理與自主決策能力提升後自然溢出的副產品，說明模型的整體智能水準已達到新的量級。
2
Token 效率遠超前代：在 BrowseComp 測試中，Mythos 以約 22.6 萬 Token 達到 86.9% 準確率，而 Opus 4.6 達到同等水準需消耗約 111 萬 Token，差距達 4.9 倍，顯示新模型在推理效率上的架構性突破。
3
網路安全能力已可武器化：Mythos 能全自主完成從漏洞發現、分析到撰寫可執行 exploit 的完整流程，Opus 4.6 在零日漏洞自主利用的成功率接近 0%，而 Mythos 成功 181 次，兩者不在同一量級，這是 Anthropic 選擇不公開的核心原因。
4
AI 安全治理框架已跟不上技術發展：這是 AI 行業首次有企業在正式文件中承認「我們造出來的東西，自己也不確定能否控制好」，Anthropic 同時預警，其他公司將在 6 至 18 個月內發布具備相似能力的模型，防禦窗口正在快速收窄。

實用技巧與重點

乾貨

評測數據：
SWE-bench Pro：Mythos 77.8% vs Opus 4.6 53.4%（差距 24.4 個百分點）
HLE：Mythos 56.8%，無工具即超越配備工具的 GPT-5.4 Pro
BrowseComp：Mythos 86.9%（22.6 萬 Token）vs Opus 4.6 83.7%（111 萬 Token），效率差 4.9 倍
Firefox 147 JS 引擎漏洞測試：Mythos 成功 181 次（含 29 次寄存器控制），Opus 4.6 僅成功 2 次
漏洞挖掘案例：
OpenBSD 零日漏洞：隱藏 27 年（1998 年起），TCP SACK 有符號整數溢出與 NULL 指標寫入組合，單次 API 成本不到 50 美元，總掃描成本約 20,000 美元
FreeBSD NFS 遠端代碼執行漏洞：CVE-2026-4747，隱藏 17 年，獲完整 root 權限，成本不到 1,000 美元
Linux 核心鏈式提權：繞過 KASLR，成本不到 2,000 美元，耗時不到一天
FFmpeg H.264 越界寫漏洞：隱藏 16 年（2003 年引入，2010 年觸發），躲過 500 萬次自動化模糊測試
定價：
輸入：25 美元 / 百萬 Token
輸出：125 美元 / 百萬 Token
Project Glasswing（玻璃翼計畫）：
開放機構：約 40 個，核心夥伴 12 個
核心夥伴：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks
API 使用積分：最高 1 億美元
開源安全資助：OpenSSF、Alpha-Omega、Apache 軟體基金會，共 400 萬美元
雲端部署：Google Cloud Vertex AI 私有預覽
內部狀況：
推理成本超出內部預期 23%
毛利率約 40%
工作日高峰時段實施限流

結論

“Claude Mythos 的出現証明，AI 的通用推理能力一旦突破臨界點，其安全漏洞挖掘與自主利用能力便足以超越人類頂級專家，整個行業在 6 至 18 個月內必須建立起能夠應對此量級威脅的安全治理框架。”

完整解析

詳細

2026 年 3 月 27 日，網路上流出了 Anthropic 正在測試一款代號 Capybara 的新模型消息，規模直接超越旗艦產品 Claude Opus 4.6。此前業界普遍認為 Anthropic 還需要數月才會推出下一代產品，消息讓整個行業震動。4 月 7 日，Anthropic 官方正式宣布 Claude Mythos Preview 的存在，同步啟動名為 Project Glasswing（玻璃翼計畫）的網路安全合作計畫，並史無前例地在公告中明確表示，不會將此模型向公眾開放——這是 AI 行業首次有企業因為模型能力過強而主動限制公開。

從架構定位來看，Claude Mythos 並非 Opus 4.6 的迭代升級，而是被置於 Opus 層級之上的全新模型層級，在程式碼理解、邏輯推理和自主決策上有質的飛躍。評測數據清晰反映了這種差距：在最權威的軟體工程能力測試 SWE-bench Pro 上，Mythos 得分 77.8%，而 Opus 4.6 為 53.4%，跨越近 25 個百分點，且測試集本身設計了防記憶機制，排除了資料污染的解釋空間。在被稱為「AI 高考天花板」的 HLE 評測中，Mythos 不借助任何外部工具，以 56.8% 的得分超越了配備工具且採用並行思維模式的 GPT-5.4 Pro。Token 效率方面，Mythos 完成同等任務所消耗的 Token 數量不到 Opus 4.6 的五分之一，展現了架構層面的成熟度。

真正讓 Anthropic 感到擔憂的，是 Mythos 在網路安全領域的實測表現。Anthropic 紅隊給模型一個隔離容器環境、目標軟體的完整原始碼，以及一句「請找出安全漏洞」的提示，之後完全不介入。Mythos 以不到 50 美元的 API 成本，自主發現了 OpenBSD 系統中隱藏 27 年、經無數次人工審計與自動化測試都未被發現的 TCP SACK 零日漏洞；以不到 1,000 美元完整撰寫出 FreeBSD NFS 服務的遠端代碼執行 exploit；以不到 2,000 美元在不到一天內完成 Linux 核心的鏈式提權，自主串聯多個漏洞繞過 KASLR 防護並最終取得 root 權限；甚至發現了 FFmpeg 中隱藏 16 年、躲過 500 萬次模糊測試的越界寫漏洞。Anthropic 前紅隊負責人 Logan Graham 指出，Mythos 不只能發現漏洞，還能自主撰寫匹配的利用程式，這是此前所有 AI 模型都不具備的核心能力。

Anthropic 並未將 Mythos 完全封存，而是透過 Project Glasswing 向約 40 個機構開放，12 個核心夥伴包含 AWS、Apple、Google、Microsoft、NVIDIA 等科技巨頭及 Linux 基金會，任務是用 Mythos 掃描各自的商業與開源軟體漏洞並共享結果。Anthropic 提供最高 1 億美元的 API 積分支援，並向開源安全組織捐款 400 萬美元。然而 Anthropic 自身的算力壓力也不容忽視：推理成本已超出內部預期 23%，毛利率跌至約 40%，算力短缺問題若無法解決，連 Mythos 的規模化部署都面臨挑戰。更深層的信號是，Anthropic 在正式文件中首次承認模型能力已超出現有安全框架的管控範圍，並預警其他公司將在 6 至 18 個月內跟進發布相似能力的模型，AI 主導的網路攻擊時代已不再是假設，而是有具體數據支撐的迫近現實。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

最强模型Claude Mythos出炉 | Anthropic | 暂不对公众开放 | 玻璃之翼计划 | 编程能力跃升 | HLE轻松第一 | token消耗20% | 网络攻击风险加剧

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備