KeyFrame

This Claude Mythos 1 Leak Shocked Me

Ava Does AI·5月31日週日·9 min中文

三句話摘要

Anthropic 最強安全模型 Claude Mythos 發現數萬個軟體漏洞,卻因風險過高選擇不公開發布。 AI 找漏洞的能力已不是瓶頸,能快速消化 AI 輸出並付諸行動的人,才是下一個時代真正的競爭優勢。 Mythos 的安全能力遠超前代模型:同一個瀏覽器漏洞測試,舊版 Opus 只能在數百次嘗試中偶爾成功,Mythos 則穩定重現超過一百次,代表這是質的躍升而非量的改進。

重點整理

重點
  • 1

    Mythos 的安全能力遠超前代模型:同一個瀏覽器漏洞測試,舊版 Opus 只能在數百次嘗試中偶爾成功,Mythos 則穩定重現超過一百次,代表這是質的躍升而非量的改進。

  • 2

    AI 可自主完成完整攻擊路徑推導:Anthropic 工程師(無安全背景)只需指向目標、讓模型運行一夜,醒來即得到完整結果,這意味著過去需要資深研究員的工作現在可由 AI 獨立完成。

  • 3

    防禦與攻擊共用同一能力,促使 Anthropic 選擇封閉:發現裂縫可以修補,也可以入侵,Anthropic 因此將 Mythos 限定於 Project Glasswing,讓受信任機構優先加固系統,再考慮更廣泛開放。

  • 4

    AI 找到問題,但修復仍需人力,人才是新瓶頸:發現漏洞後,核對報告、撰寫補丁、部署上線都依賴人工,目前不到 1% 的漏洞完成修復,說明未來的核心競爭力是「能有效處理 AI 輸出」的人。

實用技巧與重點

乾貨
  • 漏洞年齡:OpenBSD 27 年、FreeBSD 17 年、影片解碼工具 16 年
  • 單月掃描量:逾 1,000 個開源專案,標記 23,000+ 問題,10,000+ 屬高危/嚴重
  • Mozilla 成效:單一版本修復 271 個問題,為舊模型的 10 倍
  • Cloudflare 成效:發現約 2,000 個問題
  • 外部驗證準確率:約 90%(9 out of 10 confirmed)
  • UK 政府安全測試:Mythos 成為首個完整通過多步驟攻擊演練的模型
  • Project Glasswing:約 50 個受信任機構,包含 Amazon、Apple、Google、Microsoft、Nvidia、Cisco
  • 修復率:不到 1%(< 1/100)
  • 公開工具:Claude Security(企業用戶 Beta)、安全研究人員特別授權計畫
  • 舊模型對比:Claude Opus 同場景成功率遠低於 Mythos(數百次中僅少數次 vs. 100+ 次)

結論

結論

AI 找漏洞的能力已不是瓶頸,能快速消化 AI 輸出並付諸行動的人,才是下一個時代真正的競爭優勢。

完整解析

詳細

Claude Mythos 的故事從一次意外洩漏開始。在 Anthropic 官方聲明之前,「Mythos」這個名字出現在不應出現的地方,截圖迅速流傳,因為它不符合 Anthropic 一貫的命名慣例(Haiku、Sonnet、Opus),社群立刻意識到這是某種不同層級的東西。幾天後官方確認:全名為 Claude Mythos Preview,定位是 Anthropic 迄今最強的模型,而它最突出的能力,是在軟體中找出人類看了幾十年都視而不見的安全漏洞。

Mythos 的表現最能用幾個具體案例說明。OpenBSD 是業界公認最嚴格的安全作業系統之一,然而其中一個裂縫從 1990 年代末就靜靜藏著,歷經無數安全專家與自動化工具的審查,沒有人發現——Mythos 在單次運行中就把它揪出來。FreeBSD 的 17 年漏洞可讓攻擊者從任意位置取得伺服器完整控制權;另一個 16 年漏洞藏在幾乎所有網路影片播放都會用到的解碼工具裡。這些都不是新程式碼的粗心,而是被反覆審視、反覆確認「沒問題」的老舊程式碼。Mythos 的能力不僅是找到漏洞,它還能自主推導出攻擊路徑——Anthropic 工程師描述,他們把目標指給模型、關燈去睡,醒來就得到完整結論,整個過程幾乎不需要人介入。

規模層面同樣驚人。Mythos 在一個月內掃描逾千個開源專案,標記超過 23,000 個問題,其中 10,000 多個被評為高危或嚴重等級。Mozilla 用它在單一 Firefox 版本中修復了 271 個問題,約為舊模型成效的 10 倍;Cloudflare 找出約 2,000 個問題;外部安全專家隨機抽驗後,約 90% 確認為真實漏洞。英國政府旗下的 AI 安全測試機構將 Mythos 放入其最高難度的多步驟攻擊演練,它成為史上第一個全部通關的模型。

然而 Anthropic 做了一個出乎大多數人意料的決定:不公開發布。原因直白——找到裂縫可以修補,也可以入侵,能力本身是中性的,但風險不對稱。他們因此設立 Project Glasswing,將使用權限僅開放給約 50 個受信任機構(涵蓋 Amazon、Apple、Google、Microsoft、Nvidia、Cisco 等),讓防禦方先行加固,再考慮更廣泛的開放。這個決定揭示了一個更深層的現實:AI 已經找到了問題,但目前已發現漏洞中不到 1% 完成修復。審查報告、撰寫補丁、測試、部署——這一切仍然依賴人力。AI 不再是瓶頸,人才是。未來最有競爭力的人,不一定是使用最強工具的人,而是能夠有效接收 AI 輸出並把它轉化為實際行動的人。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕