KeyFrame

AI大爆发:Claude新品、Gemma 4、多国AI基建与芯片博弈齐上热搜

Colex Jeffers·6月18日週四·5 min中文

三句話摘要

一週內多項 AI 重大動態:Anthropic 雙模型發布、Google AI 生成內容被判直接擔責、中國 2950 億美元算力押注,以及多個開源模型突破。 AI 能力的瓶頸已從「能不能跑」移向「能不能被信任合併進生產環境」——FrontierCode 的 13.4% 天花板,是整個行業最需要直視的數字。 Claude 雙模型定價大幅下探:Fable 5 在軟體工程、視覺科研等幾乎所有基準達到 SOTA,Mesos 5 在藥物設計中實現約 10 倍加速;兩者定價統一為每萬輸入 $10、每萬輸出 $50,較前代 Claude Metals Preview 降價超半,降低了企業採用門檻。

重點整理

重點
  • 1

    Claude 雙模型定價大幅下探:Fable 5 在軟體工程、視覺科研等幾乎所有基準達到 SOTA,Mesos 5 在藥物設計中實現約 10 倍加速;兩者定價統一為每萬輸入 $10、每萬輸出 $50,較前代 Claude Metals Preview 降價超半,降低了企業採用門檻。

  • 2

    FrontierCode 重新定義 AI 程式碼品質標準:傳統 SWE-Bench 超過半數「通過」的程式碼實為不可維護,FrontierCode 由 20 多位頂級開源維護者手工製作 150 個任務,每任務耗時 40 小時以上,以「維護者是否願意合併」為唯一判準,揭示當前最強模型的真實落地瓶頸。

  • 3

    AI 生成內容的法律責任正式被確立:德國法院裁定 Google 不得援引傳統搜尋引擎有限責任條款來規避 AI 摘要的錯誤內容,因 AI 概覽主動生成了原始連結中根本不存在的聲明,此判決可能成為全球 AI 內容責任認定的先例。

  • 4

    推理速度與本地運行的雙重突破:MIMO-V2.5-Pro-UltraSpeed 採用 FP4 混合量化與並行推測解碼,首次突破 1000 tokens/秒;Gemma 3-12B 則以 16GB 顯存即可在消費級筆電本地運行,效能接近 26B 模型。

實用技巧與重點

乾貨
  • 模型定價
  • Claude Fable 5 / Mesos 5:輸入 $10/萬 tokens,輸出 $50/萬 tokens
  • MIMO-V2.5-Pro-UltraSpeed API 定價:為 MIMO-V2.5-Pro 的 3 倍(2026/6/9–6/23 開放期間)
  • 基準測試數據
  • FrontierCode 最高難度:Claude Opus 4.8 得分 13.4%,GPT-5.5 為 6.3%,其餘模型 1%–5%
  • Mesos 5 分子生物學假說盲測科學家偏好率:約 80%
  • Mesos 5 藥物設計加速倍率:約 10 倍
  • NorthMiniCode 在 Artificial Analysis Coding Index:33.4 分,超越 Cohere 3.5、Gemma 4 等同類模型
  • NorthMiniCode SWE-Bench Verified Pass@1:80.2%;BenchVR:55.1%
  • 技術規格
  • Gemma 3-12B:無編碼器統一架構,原生音訊輸入,16GB 顯存,Apache 2 授權,下載量逾 1.5 億次,內建多 Token 預測(MTP)
  • NorthMiniCode:30B 參數 MoE,3B 活跃參數,支援 64K/128K 上下文,Apache 2 開源
  • MIMO-V2.5-Pro-UltraSpeed:FP4 混合量化,D-Flash 快急 MASK 並行推測解碼,Coding 場景平均接受長度 6.30 tokens
  • 資金與政策
  • 中國五年資料中心投資:約 2 兆人民幣(約 2950 億美元)
  • Apollo × Blackstone AI 融資交易規模:350 億美元,Anthropic、Broadcom 參與其中
  • 台灣考慮對中國大陸實施更嚴格 AI 晶片出口管制
  • 工具 / 平台
  • FrontierCode 基準:由 Cognition 發布,20+ 頂級開源維護者手工製作,150 個任務,3000+ 條評判規則
  • MIMO-V2.5-Pro-UltraSpeed:小米 MIMO × Telert 聯合發布,FP4 權重與 D-Flash 模型已開源

結論

結論

AI 能力的瓶頸已從「能不能跑」移向「能不能被信任合併進生產環境」——FrontierCode 的 13.4% 天花板,是整個行業最需要直視的數字。

完整解析

詳細

本週 AI 領域密集發布,Anthropic 率先登場,同日推出 Claude Fable 5(通用安全版)與 Claude Mesos 5(受限安全版)。前者在軟體工程、知識工作、視覺科研等幾乎所有主流基準上達到 SOTA,Stripe 實測將數月工程壓縮至數天,FrontierCode 排行榜位居前端,甚至能僅憑截圖重建網頁應用原始碼;後者專注生命科學,在藥物設計中達到約 10 倍加速,科學家在盲測中偏好其分子生物學假說的比例約 80%。兩款模型定價統一為每萬輸入 token $10、每萬輸出 token $50,較前代 Claude Metals Preview 降價超過一半,顯示 Anthropic 正以價格換取市佔。值得注意的是,Fable 5 在部分敏感主題上會回退至 Opus 4.8 作安全觸發處理。

AI 程式碼品質的評估框架本週也迎來挑戰者。Cognition 發布 FrontierCode 基準,邀請 20 多位頂級開源維護者手工製作 150 個任務,每個任務耗時 40 小時以上,並以 3000 多條規則判斷維護者是否真正願意合併該程式碼。這一標準直接戳破了 SWE-Bench 的泡沫——該基準超過半數「通過」的程式碼,實為不可維護的技術債。在 FrontierCode 的最高難度下,Claude Opus 4.8 得分 13.4%,GPT-5.5 僅 6.3%,其餘模型介於 1%–5% 之間,意即即便是當前最強的模型,近九成產出仍無法通過有經驗維護者的審核,揭示 AI Coding 工具距離真正的「可信任合作者」仍有相當距離。

在法律與地緣政治層面,兩件事同樣不可忽視。德國地方法院裁定 Google 須直接承擔 AI 概覽所生成錯誤內容的法律責任,原因在於系統主動將兩家出版商與欺詐行為關聯,而這些聲明在任何原始連結來源中根本不存在,使其無法援引搜尋引擎的有限責任保護,此判決可能為全球 AI 內容責任認定樹立先例。與此同時,中國宣佈未來五年投入約 2950 億美元建設全國資料中心,台灣亦考慮對中國大陸實施更嚴格的 AI 晶片出口管制以配合美國限制措施;而 Apollo 與 Blackstone 的 350 億美元 AI 融資交易,則標誌著華爾街正在為昂貴的 AI 基礎設施創建全新的融資類別。

開源模型方面,Google DeepMind 的 Gemma 3-12B 以無編碼器統一架構原生支援音訊輸入,僅需 16GB 顯存即可在消費級筆電本地運行,效能接近 26B 模型,基於 Apache 2 授權發布後累計下載量已逾 1.5 億次。Cohere 推出的 NorthMiniCode 為 30B 參數 MoE 架構,僅 3B 活躍參數,在 Artificial Analysis Coding Index 得分 33.4,SWE-Bench Verified 達 80.2%,專為智能體編碼任務優化。推理速度方面,小米 MIMO 與 Telert 聯合推出的 MIMO-V2.5-Pro-UltraSpeed 採用 FP4 混合量化與並行推測解碼,首次突破每秒 1000 tokens 的輸出速度,Coding 場景平均接受長度達 6.30 tokens,相關 FP4 權重已開源。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕