Is this the BEST Open Source Model?

AI BrainBox·6月19日週五·8 min英文

三句話摘要

中國 AI 實驗室 z.ai 發布完全開源的 GLM 5.2 模型，在多項編碼基準測試中超越 GPT-5.5，並幾乎追平 Anthropic 最強模型。 --- GLM 5.2 是目前實力最強的開源模型，在真實軟體工程基準上已超越 GPT-5.5、追平 Opus 4.8，MIT 授權加上免費入口讓任何人都能立即使用，是開源 AI 發展的重要里程碑。 開源模型首次真正威脅閉源頂尖模型： GLM 5.2 是第一個在 Terminal Bench 2.1 突破 80% 門檻的開源模型（得分 81），代表開源社群在實際工程能力上首次達到可與 OpenAI、Anthropic 抗衡的水準。

重點整理

重點

1
開源模型首次真正威脅閉源頂尖模型： GLM 5.2 是第一個在 Terminal Bench 2.1 突破 80% 門檻的開源模型（得分 81），代表開源社群在實際工程能力上首次達到可與 OpenAI、Anthropic 抗衡的水準。
2
MoE 架構搭配 Index Share 技巧使超長上下文可行： 模型總參數 7530 億，但每次僅啟動約 400 億，加上「Index Share」機制在每四個稀疏層共用同一注意力索引，使百萬 token 上下文的每 token 計算量降低近三倍，讓超長窗口不只是行銷數字。
3
完全開源帶來隱私與自主控制： MIT 授權意味任何人皆可下載、自行部署、微調並商用，不受單一公司定價或存取限制；然而若使用 z.ai 官方 API，資料仍會流經中國伺服器，有資料主權需求者應選擇自架或 OpenRouter 等西方節點。
4
實際示範一次 prompt 完成複雜任務： 講者以單一指令生成了互動式太陽系儀表板與 3D 體素地形產生器，均無需修改即可運作，驗證模型在前端與生成式編碼上的實用性。
5
--

實用技巧與重點

乾貨

評測數字：
Terminal Bench 2.1：GLM 5.2 = 81；Opus 4.8 = 85
SWE Bench Pro：GLM 5.2 = 62.1；GPT-5.5 = 58.6
Frontier SWE：GLM 5.2 = 74.4%；GPT-5.5 = 72.6%；Opus 4.8 = 75.1%
前端設計 Arena ELO：GLM 5.2 = 1360（第一名，超越 Claude Opus 4.8）
模型規格：
總參數：753 billion
每次活躍參數：~40 billion
上下文窗口：1 million tokens（≈ 700,000 字）
架構：Mixture of Experts（MoE）+ Index Share 機制
每 token 計算量削減：近 3 倍（在滿 100 萬 token 時）
授權：MIT open weights
工具與平台：
免費聊天介面：`chat.z.ai`，可選 GLM 5.2 並開啟 Thinking Mode
代碼代理工具：Zcode（`zcode.z.ai`），支援 Mac / Windows / Linux
整合至 Claude Code：設定 GLM Coding Plan 訂閱，可在現有 Claude Code 工作流程下替換底層模型
第三方追蹤平台：Artificial Analysis、OpenRouter
隱私注意事項：
使用 z.ai API → 資料流經中國伺服器，適用中國資料法
自架或使用 OpenRouter → 資料不經 z.ai 伺服器
--

結論

“GLM 5.2 是目前實力最強的開源模型，在真實軟體工程基準上已超越 GPT-5.5、追平 Opus 4.8，MIT 授權加上免費入口讓任何人都能立即使用，是開源 AI 發展的重要里程碑。”

完整解析

詳細

在大型語言模型競賽中，開源陣營長期落後於 OpenAI 和 Anthropic 等閉源巨頭，尤其在需要長時間自主推理的複雜軟體工程任務上差距明顯。中國 AI 實驗室 z.ai 這週發布的 GLM 5.2，正面挑戰了這個局面。它不是「接近頂尖」，而是在多個關鍵基準上直接超越 GPT-5.5，並與 Anthropic 最強的 Opus 4.8 打成平手——而且完全開源、MIT 授權，任何人都可以下載、部署、微調。

GLM 5.2 的架構採用 Mixture of Experts 設計：總參數達 7530 億，但每次推理只啟動約 400 億，大幅降低運算成本。最關鍵的工程突破是「Index Share」機制——每四個稀疏注意力層共用同一組索引，使得在滿載 100 萬 token 上下文時，每 token 的計算量降低近三倍。這讓 100 萬 token 窗口不只是規格表上的噱頭，而是真的可用。作為對比，100 萬 token 大約等於 70 萬個英文單字，相當於同時讀完數本長篇小說後還記得第一頁的內容。

在評測數字上，GLM 5.2 在 Terminal Bench 2.1（測試模型操作真實命令列的能力）得分 81，成為第一個突破 80% 門檻的開源模型，而 Opus 4.8 是 85。SWE Bench Pro 模擬真實軟體工程工單，GLM 5.2 得 62.1，超越 GPT-5.5 的 58.6。最引人注目的是 Frontier SWE——這個長時程基準要求模型連續自主工作數小時——GLM 5.2 得 74.4%，GPT-5.5 是 72.6%，Opus 4.8 是 75.1%，三者幾乎並駕齊驅。在前端 UI 設計 Arena 眾包評分中，GLM 5.2 更以 ELO 1360 奪得第一，超越 Claude Opus 4.8。

實際使用上，最快的入口是免費的 `chat.z.ai`，選擇 GLM 5.2 模型後還可開啟 Thinking Mode 處理難題。講者現場示範以一句 prompt 生成了可互動的太陽系儀表板（含公轉速度滑桿、行星比較模式），以及支援隨機種子、旋轉縮放的 3D 體素地形生成器，兩者均一次完成、無需修改。進階用戶可安裝 Zcode 工具直接在整個專案資料夾中協作，或者透過 GLM Coding Plan 訂閱，將 GLM 5.2 無縫替換為 Claude Code 背後的執行模型，保留現有工作流程。需要特別注意的是，若使用 z.ai 官方 API，資料會流經中國伺服器並受中國資料法管轄；有資料主權需求的用戶應選擇自架模型或使用 OpenRouter 等西方節點。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Is this the BEST Open Source Model?

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備