AI大爆发：Claude新品、Gemma 4、多国AI基建与芯片博弈齐上热搜

Colex Jeffers·6月18日週四·5 min中文

三句話摘要

一週內多項 AI 重大動態：Anthropic 雙模型發布、Google AI 生成內容被判直接擔責、中國 2950 億美元算力押注，以及多個開源模型突破。 AI 能力的瓶頸已從「能不能跑」移向「能不能被信任合併進生產環境」——FrontierCode 的 13.4% 天花板，是整個行業最需要直視的數字。 Claude 雙模型定價大幅下探：Fable 5 在軟體工程、視覺科研等幾乎所有基準達到 SOTA，Mesos 5 在藥物設計中實現約 10 倍加速；兩者定價統一為每萬輸入 $10、每萬輸出 $50，較前代 Claude Metals Preview 降價超半，降低了企業採用門檻。

重點整理

重點

1
Claude 雙模型定價大幅下探：Fable 5 在軟體工程、視覺科研等幾乎所有基準達到 SOTA，Mesos 5 在藥物設計中實現約 10 倍加速；兩者定價統一為每萬輸入 $10、每萬輸出 $50，較前代 Claude Metals Preview 降價超半，降低了企業採用門檻。
2
FrontierCode 重新定義 AI 程式碼品質標準：傳統 SWE-Bench 超過半數「通過」的程式碼實為不可維護，FrontierCode 由 20 多位頂級開源維護者手工製作 150 個任務，每任務耗時 40 小時以上，以「維護者是否願意合併」為唯一判準，揭示當前最強模型的真實落地瓶頸。
3
AI 生成內容的法律責任正式被確立：德國法院裁定 Google 不得援引傳統搜尋引擎有限責任條款來規避 AI 摘要的錯誤內容，因 AI 概覽主動生成了原始連結中根本不存在的聲明，此判決可能成為全球 AI 內容責任認定的先例。
4
推理速度與本地運行的雙重突破：MIMO-V2.5-Pro-UltraSpeed 採用 FP4 混合量化與並行推測解碼，首次突破 1000 tokens/秒；Gemma 3-12B 則以 16GB 顯存即可在消費級筆電本地運行，效能接近 26B 模型。

實用技巧與重點

乾貨

模型定價
Claude Fable 5 / Mesos 5：輸入 $10/萬 tokens，輸出 $50/萬 tokens
MIMO-V2.5-Pro-UltraSpeed API 定價：為 MIMO-V2.5-Pro 的 3 倍（2026/6/9–6/23 開放期間）
基準測試數據
FrontierCode 最高難度：Claude Opus 4.8 得分 13.4%，GPT-5.5 為 6.3%，其餘模型 1%–5%
Mesos 5 分子生物學假說盲測科學家偏好率：約 80%
Mesos 5 藥物設計加速倍率：約 10 倍
NorthMiniCode 在 Artificial Analysis Coding Index：33.4 分，超越 Cohere 3.5、Gemma 4 等同類模型
NorthMiniCode SWE-Bench Verified Pass@1：80.2%；BenchVR：55.1%
技術規格
Gemma 3-12B：無編碼器統一架構，原生音訊輸入，16GB 顯存，Apache 2 授權，下載量逾 1.5 億次，內建多 Token 預測（MTP）
NorthMiniCode：30B 參數 MoE，3B 活跃參數，支援 64K/128K 上下文，Apache 2 開源
MIMO-V2.5-Pro-UltraSpeed：FP4 混合量化，D-Flash 快急 MASK 並行推測解碼，Coding 場景平均接受長度 6.30 tokens
資金與政策
中國五年資料中心投資：約 2 兆人民幣（約 2950 億美元）
Apollo × Blackstone AI 融資交易規模：350 億美元，Anthropic、Broadcom 參與其中
台灣考慮對中國大陸實施更嚴格 AI 晶片出口管制
工具 / 平台
FrontierCode 基準：由 Cognition 發布，20+ 頂級開源維護者手工製作，150 個任務，3000+ 條評判規則
MIMO-V2.5-Pro-UltraSpeed：小米 MIMO × Telert 聯合發布，FP4 權重與 D-Flash 模型已開源

結論

“AI 能力的瓶頸已從「能不能跑」移向「能不能被信任合併進生產環境」——FrontierCode 的 13.4% 天花板，是整個行業最需要直視的數字。”

完整解析

詳細

本週 AI 領域密集發布，Anthropic 率先登場，同日推出 Claude Fable 5（通用安全版）與 Claude Mesos 5（受限安全版）。前者在軟體工程、知識工作、視覺科研等幾乎所有主流基準上達到 SOTA，Stripe 實測將數月工程壓縮至數天，FrontierCode 排行榜位居前端，甚至能僅憑截圖重建網頁應用原始碼；後者專注生命科學，在藥物設計中達到約 10 倍加速，科學家在盲測中偏好其分子生物學假說的比例約 80%。兩款模型定價統一為每萬輸入 token $10、每萬輸出 token $50，較前代 Claude Metals Preview 降價超過一半，顯示 Anthropic 正以價格換取市佔。值得注意的是，Fable 5 在部分敏感主題上會回退至 Opus 4.8 作安全觸發處理。

AI 程式碼品質的評估框架本週也迎來挑戰者。Cognition 發布 FrontierCode 基準，邀請 20 多位頂級開源維護者手工製作 150 個任務，每個任務耗時 40 小時以上，並以 3000 多條規則判斷維護者是否真正願意合併該程式碼。這一標準直接戳破了 SWE-Bench 的泡沫——該基準超過半數「通過」的程式碼，實為不可維護的技術債。在 FrontierCode 的最高難度下，Claude Opus 4.8 得分 13.4%，GPT-5.5 僅 6.3%，其餘模型介於 1%–5% 之間，意即即便是當前最強的模型，近九成產出仍無法通過有經驗維護者的審核，揭示 AI Coding 工具距離真正的「可信任合作者」仍有相當距離。

在法律與地緣政治層面，兩件事同樣不可忽視。德國地方法院裁定 Google 須直接承擔 AI 概覽所生成錯誤內容的法律責任，原因在於系統主動將兩家出版商與欺詐行為關聯，而這些聲明在任何原始連結來源中根本不存在，使其無法援引搜尋引擎的有限責任保護，此判決可能為全球 AI 內容責任認定樹立先例。與此同時，中國宣佈未來五年投入約 2950 億美元建設全國資料中心，台灣亦考慮對中國大陸實施更嚴格的 AI 晶片出口管制以配合美國限制措施；而 Apollo 與 Blackstone 的 350 億美元 AI 融資交易，則標誌著華爾街正在為昂貴的 AI 基礎設施創建全新的融資類別。

開源模型方面，Google DeepMind 的 Gemma 3-12B 以無編碼器統一架構原生支援音訊輸入，僅需 16GB 顯存即可在消費級筆電本地運行，效能接近 26B 模型，基於 Apache 2 授權發布後累計下載量已逾 1.5 億次。Cohere 推出的 NorthMiniCode 為 30B 參數 MoE 架構，僅 3B 活躍參數，在 Artificial Analysis Coding Index 得分 33.4，SWE-Bench Verified 達 80.2%，專為智能體編碼任務優化。推理速度方面，小米 MIMO 與 Telert 聯合推出的 MIMO-V2.5-Pro-UltraSpeed 採用 FP4 混合量化與並行推測解碼，首次突破每秒 1000 tokens 的輸出速度，Coding 場景平均接受長度達 6.30 tokens，相關 FP4 權重已開源。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

AI大爆发：Claude新品、Gemma 4、多国AI基建与芯片博弈齐上热搜

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備