KeyFrame

从字节论文到 Mythos 落地:循环语言模型,AI 架构的下一场革命

胡笳·4月13日週一·5 min中文

三句話摘要

Anthropic 發布史上最強模型 Claude Mythos Preview,社群高度懷疑其底層採用了字節跳動提出的「循環語言模型(LoopLM)」架構。 Claude Mythos Preview 的跨代性能躍升,指向循環語言模型將參數數量與推理深度解耦這一核心突破,這很可能是未來五年 AI 架構演進的主線。 Mythos 的能力遠超前代與競品:在真實世界 bug 修復基準 SWE-bench 上達到 93.9%,長上下文圖遍歷測試 GraphWorks BFS 達到 80%,而同測試前代 Claude 僅 38.7%、GPT-5 僅 21.4%,差距懸殊說明架構層面可能有根本性突破。

重點整理

重點
  • 1

    Mythos 的能力遠超前代與競品:在真實世界 bug 修復基準 SWE-bench 上達到 93.9%,長上下文圖遍歷測試 GraphWorks BFS 達到 80%,而同測試前代 Claude 僅 38.7%、GPT-5 僅 21.4%,差距懸殊說明架構層面可能有根本性突破。

  • 2

    網路安全能力觸及 Anthropic 自設紅線:Mythos 能自動發現高危漏洞並將多個漏洞串接為完整攻擊鏈,強大到 Anthropic 不敢公開,僅向極少數安全合作夥伴開放防禦性測試,這在歷代模型中尚屬首次。

  • 3

    循環語言模型將參數量與思考深度解耦:傳統模型是線性單次前向傳播,LoopLM 則讓輸入反覆通過同一批循環塊,由「出口門」決定是否已思考充分,並在潛向量空間(latent space)中持續迭代推理,效果類似人類在腦中反覆打草稿。

  • 4

    時間線與論文高度吻合是核心推斷依據:字節跳動 2025 年 10 月發表 LoopLM 論文,Mythos 隔年 4 月問世,社群一致認為 Anthropic 至少深度借鑒了此架構,但 Anthropic 並未公開確認。

實用技巧與重點

乾貨
  • 模型名稱:Claude Mythos Preview
  • 發布日期:2026 年 4 月 7 日
  • SWE-bench 代理模式:Mythos 93.9% vs 前代 Claude 未提 vs GPT-5 未提
  • GraphWorks BFS(長上下文圖遍歷):Mythos 80% vs 前代 Claude 38.7% vs GPT-5 21.4%
  • 論文名稱Scaling Latent Reasoning via Looped Language Models
  • 論文發表方:字節跳動(ByteDance)
  • 論文發表時間:2025 年 10 月
  • 架構名稱:LoopLM(循環語言模型)
  • 三項關鍵技術:共享循環塊(Shared Looped Blocks)、出口門(Exit Gate)、潛空間推理(Latent Space Reasoning)
  • 網路安全能力:自動發現高危漏洞、串接多個漏洞形成完整攻擊鏈
  • 開放範圍:僅限極少數安全合作夥伴,用途限防禦性測試

結論

結論

Claude Mythos Preview 的跨代性能躍升,指向循環語言模型將參數數量與推理深度解耦這一核心突破,這很可能是未來五年 AI 架構演進的主線。

完整解析

詳細

Anthropic 在 2026 年 4 月 7 日悄然發布了 Claude Mythos Preview,但與以往高調的模型發布不同,這次幾乎沒有大規模行銷宣傳。真正引發社群震動的,是它在各項基準測試上令人咋舌的表現——尤其是在真實世界程式設計任務基準 SWE-bench 的代理模式中達到 93.9% 的準確率,以及在長上下文圖遍歷測試 GraphWorks BFS 中拿到 80% 的高分,而前一代 Claude 在同一測試中只有 38.7%,GPT-5 更只有 21.4%。這樣的跨代躍升幅度,遠超正常的迭代改進,暗示底層架構存在根本性變化。

在網路安全領域,Mythos 的能力強大到 Anthropic 自己都不敢公開。模型能夠自動發現高危漏洞,並將多個看似獨立的漏洞串接成一條完整的攻擊鏈——這意味著它具備系統性的漏洞挖掘與利用推理能力。正因如此,Anthropic 僅將其開放給極少數安全研究合作夥伴,用途嚴格限制在防禦性測試,這在 Claude 系列的歷史上前所未見。

社群之所以高度懷疑 Mythos 採用了「循環語言模型(LoopLM)」架構,核心依據是時間線的高度吻合:字節跳動於 2025 年 10 月發表了論文《Scaling Latent Reasoning via Looped Language Models》,而 Mythos 在半年後正式亮相。論文提出的 LoopLM 架構與 Mythos 的表現特徵高度一致,社群幾乎形成共識,認為 Anthropic 至少深度借鑒了這一架構思路。

LoopLM 的核心思想是將傳統模型的線性單次前向傳播改為「反覆循環」機制。普通模型的結構如同高速公路,輸入從頭跑到尾直接輸出;而循環語言模型則讓輸入反覆通過同一批「共享循環塊」,每次迭代後由一個「出口門」判斷推理是否充分,若不夠就繼續循環,直到達標才輸出。這個過程發生在「潛向量空間」(latent space)中,類似人類在腦海中反覆修改草稿。這種設計的關鍵優勢在於:模型不需要堆疊大量不同參數,就能實現更深的推理深度,從而在更小的模型體積下達到更強的效果——這也讓「手機端跑超強 AI」的可能性向前邁了一步。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕