China’s New AI Is 6X More Efficient Than Claude
三句話摘要
中國開源編碼模型 Kimi K2.7 Code 與 GLM 5.2 以低成本和強效能挑戰閉源頂級模型,同時傳聞 Cursor 被 SpaceX 收購、OpenAI 開發新語音模型。 開源編碼模型結合政策風險,正在打破美國閉源模型的成本壟斷,同時編碼代理的超高邊際成本讓價格差異成為決定性因素。 開源編碼模型出現性能與成本的突破點。Kimi K2.7 Code 採 1 兆參數混合專家架構(僅 32 億激活),支援 256K token 窗口,特別優化 30% 思考 token 消耗,在 MCP Mark Verified 實環境測試中達 81.1 分。GLM 5.2 是 753 億參數完全開源模型,在真實軟體工程基準測試 SWE Bench Pro 上實際超越 GPT 5.5,兩者輸出 token 成本均為 GPT 5.5 的 1/6。
重點整理
重點- 1
開源編碼模型出現性能與成本的突破點。Kimi K2.7 Code 採 1 兆參數混合專家架構(僅 32 億激活),支援 256K token 窗口,特別優化 30% 思考 token 消耗,在 MCP Mark Verified 實環境測試中達 81.1 分。GLM 5.2 是 753 億參數完全開源模型,在真實軟體工程基準測試 SWE Bench Pro 上實際超越 GPT 5.5,兩者輸出 token 成本均為 GPT 5.5 的 1/6。
- 2
政策風險改變企業計算。Claude Fabel 5 因美國出口管制被強制下線後,企業開始重新評估閉源模型的長期可靠性。GLM 5.2 採完全開源 MIT 協議、技術無邊界、無地域限制,允許企業自行託管、微調、部署於私有基礎設施,完全規避供應商綁定與政策風險。
- 3
編碼代理工作成為核心戰場。K2.7 Code 強化思考效率與多轉推理記憶,GLM 5.2 透過索引共享將 token 計算成本降 2.9 倍、支援 max/high 雙思考模式,兩者均針對多步驟代碼分析與工具調用最佳化。
- 4
計算資源掌控決定未來格局。Cursor 若被 SpaceX $600 億收購,整合 55 萬 GPU 集群後可在 12 個月內成為編碼代理領導者,同時為 Grok 提供開發者工作流大數據,數據價值遠超軟體本身。
實用技巧與重點
乾貨- Kimi K2.7 Code
- 參數規格:1 兆總參數,32 億激活(384 專家,每 token 8 個)
- 上下文窗口:256K token
- 基準成績:Kimi Code Bench V2 達 62.0;MCP Mark Verified 達 81.1;Program Bench 達 53.6;MLS Bench Lite 達 35.1
- 定價:輸入 $0.95/百萬 token,輸出 $4/百萬 token,緩存輸入 $0.19/百萬 token
- 特性:30% 更少思考 token、強制思考模式、保留思考模式、支援視頻
- 許可:修改 MIT,超 1 億 MAU 或月收入 $2000 萬需展示模型名稱
- 部署:Kimi API、Code CLI、Hugging Face、VLLM、SGLang,INT4 量化,6 倍高速模式即將推出
- GLM 5.2
- 參數規格:753 億開源權重模型
- 上下文窗口:100 萬 token(索引共享降低 2.9 倍每 token 計算)
- 基準成績:SWE Bench Pro 62.1(超 GPT 5.5 的 58.6);Frontier SWE 75.1%;MCP Atlas 77.0;Humanity's Last Exam with Tools 54.7
- 定價:輸入 $1.4/百萬 token,輸出 $4.4/百萬 token,緩存輸入 $0.26/百萬 token;年組合成本約 $5.8(vs GPT 5.5 的 $35)
- 思考模式:max mode 可達 85,000 輸出 token,high mode 減半輸出 token
- 特性:多 token 預測投機解碼(加速 20%),選擇思考強度
- 許可:完全開源 MIT,無地域限制,技術無邊界
- 集成:支援 Claude Code、OpenClaw、Kilo Code、Crush、Factory 等 20+ 開發環境
- 定價計畫:Lite $12.60/年($10.50/月),Pro $50.40,Max $112
- GPT 5.5 基準對標
- Kimi Code Bench V2:63.0(K2.7 Code 62.0)
- Program Bench:69.1(K2.7 Code 53.6)
- SWE Bench Pro:58.6(GLM 5.2 62.1)
- MCP Mark Verified:92.9(K2.7 Code 81.1,GLM 5.2 81.1)
- 定價:輸入 $5,輸出 $30/百萬 token
- Cursor 與 SpaceX
- 傳聞收購價:$600 億全股票交易
- 當前年收入:$40 億(2026 年 6 月)
- SpaceX Colossus 集群:550,000 GPU
- SpaceX 2025 年收入:$187 億
- Cursor 占 SpaceX 比例:21%
- OpenAI GPT-BD1(BITI-1)
- 功能:雙向語音,實時對話,自然中斷,中途調整
- 特性:可選 max effort 或 high effort 思考模式
- 狀態:Web 與行動版本已現蹤,消費者推出時機未確定
結論
結論“開源編碼模型結合政策風險,正在打破美國閉源模型的成本壟斷,同時編碼代理的超高邊際成本讓價格差異成為決定性因素。”
完整解析
詳細在 Claude Fabel 5 因美國出口管制被迫下線後,中國 AI 企業以更激進的開源策略做出回應。月光微信與智譜 AI 在短短數日內相繼推出 Kimi K2.7 Code 與 GLM 5.2,不僅以具競爭力的開源許可和部署靈活性吸引開發者,更在編碼代理任務的關鍵基準測試中展現了接近或超越美國閉源模型的能力。
Kimi K2.7 Code 採用混合專家架構,以 1 兆總參數但僅 32 億激活參數運行,支援 256K token 上下文窗口。該模型經過針對編碼代理工作流的特殊優化,包括 30% 的思考 token 減少、強制思考模式和保留思考模式,使其能在多步驟代碼分析中保持推理連貫性。在基準測試中,K2.7 Code 的表現可觀:在 Kimi Code Bench V2 上達 62.0 分,在 MCP Mark Verified 上達 81.1 分——後者測試的是 GitHub、Notion、檔案系統、Postgres 資料庫等真實軟體環境中的代理表現。關鍵優勢在於定價,輸出 token 成本為每百萬 $4,僅為 Claude Opus 4.8 的 1/6。採用修改的 MIT 開源許可,超過 1 億月活用戶或月收入 $2000 萬的企業需展示模型名稱,其他使用完全自由。
GLM 5.2 則是更激進的挑戰者。這個 753 億參數的完全開源模型支援 100 萬 token 超長上下文,並透過索引共享機制將每 token 計算成本降低 2.9 倍。在 SWE Bench Pro(測試真實軟體工程任務)上,GLM 5.2 得 62.1 分,實際超越 GPT 5.5 的 58.6 分——這不是邊際改進,而是明確的勝利。價格方面,GLM 5.2 的輸入加輸出組合成本約為 GPT 5.5 的 1/6,且提供兩種思考模式:max mode 可達 85,000 輸出 token 的深度推理,high mode 則將輸出減半並損失少數基準分。GLM 5.2 採用完全開放的 MIT 協議、無地域限制、技術無邊界,企業可自行託管、微調、自行部署,完全規避供應商綁定。
Cursor 被 SpaceX 收購的傳聞則從另一角度突出了 AI 編碼工具的價值。若傳聞屬實,年收入已達 $40 億的 Cursor 將與 SpaceX 的 55 萬 GPU 集群 Colossus 結合。評論者指出,Cursor 最大瓶頸正是計算資源,整合後可能在 12 個月內成為編碼代理領導者,同時為 Grok 提供無價的開發者工作流數據——編碼請求、設計決策、除錯行為、真實軟體任務,這些數據對訓練編碼代理極其珍貴。
在語音端,OpenAI 正開發代號 GPT-BD1 的新模型,實現真正的雙向對話——使用者和模型能同時說話、自然中斷、即時回應,解決現有語音助手「冷凍應答」的根本問題。該模型可能支援多層次推理模式,並在 web 和行動版本中已有跡象,大規模推出時間仍未確定。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


