KeyFrame

China’s New AI Is 6X More Efficient Than Claude

AI Revolution·6月17日週三·16 min中文

三句話摘要

中國開源編碼模型 Kimi K2.7 Code 與 GLM 5.2 以低成本和強效能挑戰閉源頂級模型,同時傳聞 Cursor 被 SpaceX 收購、OpenAI 開發新語音模型。 開源編碼模型結合政策風險,正在打破美國閉源模型的成本壟斷,同時編碼代理的超高邊際成本讓價格差異成為決定性因素。 開源編碼模型出現性能與成本的突破點。Kimi K2.7 Code 採 1 兆參數混合專家架構(僅 32 億激活),支援 256K token 窗口,特別優化 30% 思考 token 消耗,在 MCP Mark Verified 實環境測試中達 81.1 分。GLM 5.2 是 753 億參數完全開源模型,在真實軟體工程基準測試 SWE Bench Pro 上實際超越 GPT 5.5,兩者輸出 token 成本均為 GPT 5.5 的 1/6。

重點整理

重點
  • 1

    開源編碼模型出現性能與成本的突破點。Kimi K2.7 Code 採 1 兆參數混合專家架構(僅 32 億激活),支援 256K token 窗口,特別優化 30% 思考 token 消耗,在 MCP Mark Verified 實環境測試中達 81.1 分。GLM 5.2 是 753 億參數完全開源模型,在真實軟體工程基準測試 SWE Bench Pro 上實際超越 GPT 5.5,兩者輸出 token 成本均為 GPT 5.5 的 1/6。

  • 2

    政策風險改變企業計算。Claude Fabel 5 因美國出口管制被強制下線後,企業開始重新評估閉源模型的長期可靠性。GLM 5.2 採完全開源 MIT 協議、技術無邊界、無地域限制,允許企業自行託管、微調、部署於私有基礎設施,完全規避供應商綁定與政策風險。

  • 3

    編碼代理工作成為核心戰場。K2.7 Code 強化思考效率與多轉推理記憶,GLM 5.2 透過索引共享將 token 計算成本降 2.9 倍、支援 max/high 雙思考模式,兩者均針對多步驟代碼分析與工具調用最佳化。

  • 4

    計算資源掌控決定未來格局。Cursor 若被 SpaceX $600 億收購,整合 55 萬 GPU 集群後可在 12 個月內成為編碼代理領導者,同時為 Grok 提供開發者工作流大數據,數據價值遠超軟體本身。

實用技巧與重點

乾貨
  • Kimi K2.7 Code
  • 參數規格:1 兆總參數,32 億激活(384 專家,每 token 8 個)
  • 上下文窗口:256K token
  • 基準成績:Kimi Code Bench V2 達 62.0;MCP Mark Verified 達 81.1;Program Bench 達 53.6;MLS Bench Lite 達 35.1
  • 定價:輸入 $0.95/百萬 token,輸出 $4/百萬 token,緩存輸入 $0.19/百萬 token
  • 特性:30% 更少思考 token、強制思考模式、保留思考模式、支援視頻
  • 許可:修改 MIT,超 1 億 MAU 或月收入 $2000 萬需展示模型名稱
  • 部署:Kimi API、Code CLI、Hugging Face、VLLM、SGLang,INT4 量化,6 倍高速模式即將推出
  • GLM 5.2
  • 參數規格:753 億開源權重模型
  • 上下文窗口:100 萬 token(索引共享降低 2.9 倍每 token 計算)
  • 基準成績:SWE Bench Pro 62.1(超 GPT 5.5 的 58.6);Frontier SWE 75.1%;MCP Atlas 77.0;Humanity's Last Exam with Tools 54.7
  • 定價:輸入 $1.4/百萬 token,輸出 $4.4/百萬 token,緩存輸入 $0.26/百萬 token;年組合成本約 $5.8(vs GPT 5.5 的 $35)
  • 思考模式:max mode 可達 85,000 輸出 token,high mode 減半輸出 token
  • 特性:多 token 預測投機解碼(加速 20%),選擇思考強度
  • 許可:完全開源 MIT,無地域限制,技術無邊界
  • 集成:支援 Claude Code、OpenClaw、Kilo Code、Crush、Factory 等 20+ 開發環境
  • 定價計畫:Lite $12.60/年($10.50/月),Pro $50.40,Max $112
  • GPT 5.5 基準對標
  • Kimi Code Bench V2:63.0(K2.7 Code 62.0)
  • Program Bench:69.1(K2.7 Code 53.6)
  • SWE Bench Pro:58.6(GLM 5.2 62.1)
  • MCP Mark Verified:92.9(K2.7 Code 81.1,GLM 5.2 81.1)
  • 定價:輸入 $5,輸出 $30/百萬 token
  • Cursor 與 SpaceX
  • 傳聞收購價:$600 億全股票交易
  • 當前年收入:$40 億(2026 年 6 月)
  • SpaceX Colossus 集群:550,000 GPU
  • SpaceX 2025 年收入:$187 億
  • Cursor 占 SpaceX 比例:21%
  • OpenAI GPT-BD1(BITI-1)
  • 功能:雙向語音,實時對話,自然中斷,中途調整
  • 特性:可選 max effort 或 high effort 思考模式
  • 狀態:Web 與行動版本已現蹤,消費者推出時機未確定

結論

結論

開源編碼模型結合政策風險,正在打破美國閉源模型的成本壟斷,同時編碼代理的超高邊際成本讓價格差異成為決定性因素。

完整解析

詳細

在 Claude Fabel 5 因美國出口管制被迫下線後,中國 AI 企業以更激進的開源策略做出回應。月光微信與智譜 AI 在短短數日內相繼推出 Kimi K2.7 Code 與 GLM 5.2,不僅以具競爭力的開源許可和部署靈活性吸引開發者,更在編碼代理任務的關鍵基準測試中展現了接近或超越美國閉源模型的能力。

Kimi K2.7 Code 採用混合專家架構,以 1 兆總參數但僅 32 億激活參數運行,支援 256K token 上下文窗口。該模型經過針對編碼代理工作流的特殊優化,包括 30% 的思考 token 減少、強制思考模式和保留思考模式,使其能在多步驟代碼分析中保持推理連貫性。在基準測試中,K2.7 Code 的表現可觀:在 Kimi Code Bench V2 上達 62.0 分,在 MCP Mark Verified 上達 81.1 分——後者測試的是 GitHub、Notion、檔案系統、Postgres 資料庫等真實軟體環境中的代理表現。關鍵優勢在於定價,輸出 token 成本為每百萬 $4,僅為 Claude Opus 4.8 的 1/6。採用修改的 MIT 開源許可,超過 1 億月活用戶或月收入 $2000 萬的企業需展示模型名稱,其他使用完全自由。

GLM 5.2 則是更激進的挑戰者。這個 753 億參數的完全開源模型支援 100 萬 token 超長上下文,並透過索引共享機制將每 token 計算成本降低 2.9 倍。在 SWE Bench Pro(測試真實軟體工程任務)上,GLM 5.2 得 62.1 分,實際超越 GPT 5.5 的 58.6 分——這不是邊際改進,而是明確的勝利。價格方面,GLM 5.2 的輸入加輸出組合成本約為 GPT 5.5 的 1/6,且提供兩種思考模式:max mode 可達 85,000 輸出 token 的深度推理,high mode 則將輸出減半並損失少數基準分。GLM 5.2 採用完全開放的 MIT 協議、無地域限制、技術無邊界,企業可自行託管、微調、自行部署,完全規避供應商綁定。

Cursor 被 SpaceX 收購的傳聞則從另一角度突出了 AI 編碼工具的價值。若傳聞屬實,年收入已達 $40 億的 Cursor 將與 SpaceX 的 55 萬 GPU 集群 Colossus 結合。評論者指出,Cursor 最大瓶頸正是計算資源,整合後可能在 12 個月內成為編碼代理領導者,同時為 Grok 提供無價的開發者工作流數據——編碼請求、設計決策、除錯行為、真實軟體任務,這些數據對訓練編碼代理極其珍貴。

在語音端,OpenAI 正開發代號 GPT-BD1 的新模型,實現真正的雙向對話——使用者和模型能同時說話、自然中斷、即時回應,解決現有語音助手「冷凍應答」的根本問題。該模型可能支援多層次推理模式,並在 web 和行動版本中已有跡象,大規模推出時間仍未確定。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕