Is this the BEST Open Source Model?
三句話摘要
中國 AI 實驗室 z.ai 發布完全開源的 GLM 5.2 模型,在多項編碼基準測試中超越 GPT-5.5,並幾乎追平 Anthropic 最強模型。 --- GLM 5.2 是目前實力最強的開源模型,在真實軟體工程基準上已超越 GPT-5.5、追平 Opus 4.8,MIT 授權加上免費入口讓任何人都能立即使用,是開源 AI 發展的重要里程碑。 開源模型首次真正威脅閉源頂尖模型: GLM 5.2 是第一個在 Terminal Bench 2.1 突破 80% 門檻的開源模型(得分 81),代表開源社群在實際工程能力上首次達到可與 OpenAI、Anthropic 抗衡的水準。
重點整理
重點- 1
開源模型首次真正威脅閉源頂尖模型: GLM 5.2 是第一個在 Terminal Bench 2.1 突破 80% 門檻的開源模型(得分 81),代表開源社群在實際工程能力上首次達到可與 OpenAI、Anthropic 抗衡的水準。
- 2
MoE 架構搭配 Index Share 技巧使超長上下文可行: 模型總參數 7530 億,但每次僅啟動約 400 億,加上「Index Share」機制在每四個稀疏層共用同一注意力索引,使百萬 token 上下文的每 token 計算量降低近三倍,讓超長窗口不只是行銷數字。
- 3
完全開源帶來隱私與自主控制: MIT 授權意味任何人皆可下載、自行部署、微調並商用,不受單一公司定價或存取限制;然而若使用 z.ai 官方 API,資料仍會流經中國伺服器,有資料主權需求者應選擇自架或 OpenRouter 等西方節點。
- 4
實際示範一次 prompt 完成複雜任務: 講者以單一指令生成了互動式太陽系儀表板與 3D 體素地形產生器,均無需修改即可運作,驗證模型在前端與生成式編碼上的實用性。
- 5
--
實用技巧與重點
乾貨- 評測數字:
- Terminal Bench 2.1:GLM 5.2 = 81;Opus 4.8 = 85
- SWE Bench Pro:GLM 5.2 = 62.1;GPT-5.5 = 58.6
- Frontier SWE:GLM 5.2 = 74.4%;GPT-5.5 = 72.6%;Opus 4.8 = 75.1%
- 前端設計 Arena ELO:GLM 5.2 = 1360(第一名,超越 Claude Opus 4.8)
- 模型規格:
- 總參數:753 billion
- 每次活躍參數:~40 billion
- 上下文窗口:1 million tokens(≈ 700,000 字)
- 架構:Mixture of Experts(MoE)+ Index Share 機制
- 每 token 計算量削減:近 3 倍(在滿 100 萬 token 時)
- 授權:MIT open weights
- 工具與平台:
- 免費聊天介面:`chat.z.ai`,可選 GLM 5.2 並開啟 Thinking Mode
- 代碼代理工具:Zcode(`zcode.z.ai`),支援 Mac / Windows / Linux
- 整合至 Claude Code:設定 GLM Coding Plan 訂閱,可在現有 Claude Code 工作流程下替換底層模型
- 第三方追蹤平台:Artificial Analysis、OpenRouter
- 隱私注意事項:
- 使用 z.ai API → 資料流經中國伺服器,適用中國資料法
- 自架或使用 OpenRouter → 資料不經 z.ai 伺服器
- --
結論
結論“GLM 5.2 是目前實力最強的開源模型,在真實軟體工程基準上已超越 GPT-5.5、追平 Opus 4.8,MIT 授權加上免費入口讓任何人都能立即使用,是開源 AI 發展的重要里程碑。”
完整解析
詳細在大型語言模型競賽中,開源陣營長期落後於 OpenAI 和 Anthropic 等閉源巨頭,尤其在需要長時間自主推理的複雜軟體工程任務上差距明顯。中國 AI 實驗室 z.ai 這週發布的 GLM 5.2,正面挑戰了這個局面。它不是「接近頂尖」,而是在多個關鍵基準上直接超越 GPT-5.5,並與 Anthropic 最強的 Opus 4.8 打成平手——而且完全開源、MIT 授權,任何人都可以下載、部署、微調。
GLM 5.2 的架構採用 Mixture of Experts 設計:總參數達 7530 億,但每次推理只啟動約 400 億,大幅降低運算成本。最關鍵的工程突破是「Index Share」機制——每四個稀疏注意力層共用同一組索引,使得在滿載 100 萬 token 上下文時,每 token 的計算量降低近三倍。這讓 100 萬 token 窗口不只是規格表上的噱頭,而是真的可用。作為對比,100 萬 token 大約等於 70 萬個英文單字,相當於同時讀完數本長篇小說後還記得第一頁的內容。
在評測數字上,GLM 5.2 在 Terminal Bench 2.1(測試模型操作真實命令列的能力)得分 81,成為第一個突破 80% 門檻的開源模型,而 Opus 4.8 是 85。SWE Bench Pro 模擬真實軟體工程工單,GLM 5.2 得 62.1,超越 GPT-5.5 的 58.6。最引人注目的是 Frontier SWE——這個長時程基準要求模型連續自主工作數小時——GLM 5.2 得 74.4%,GPT-5.5 是 72.6%,Opus 4.8 是 75.1%,三者幾乎並駕齊驅。在前端 UI 設計 Arena 眾包評分中,GLM 5.2 更以 ELO 1360 奪得第一,超越 Claude Opus 4.8。
實際使用上,最快的入口是免費的 `chat.z.ai`,選擇 GLM 5.2 模型後還可開啟 Thinking Mode 處理難題。講者現場示範以一句 prompt 生成了可互動的太陽系儀表板(含公轉速度滑桿、行星比較模式),以及支援隨機種子、旋轉縮放的 3D 體素地形生成器,兩者均一次完成、無需修改。進階用戶可安裝 Zcode 工具直接在整個專案資料夾中協作,或者透過 GLM Coding Plan 訂閱,將 GLM 5.2 無縫替換為 Claude Code 背後的執行模型,保留現有工作流程。需要特別注意的是,若使用 z.ai 官方 API,資料會流經中國伺服器並受中國資料法管轄;有資料主權需求的用戶應選擇自架模型或使用 OpenRouter 等西方節點。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


