KeyFrame
AI 技術編輯精選

GLM 5.2: NEW Opensource KING IS BEATING GPT-5.5 & Opus 4.8! (Fully Tested)

WorldofAI·6月19日週五·13 min英文

三句話摘要

ZAI 推出開源模型 GLM 5.2,以極低成本在前端設計與程式碼生成上媲美甚至超越 Claude Opus 4.8 等頂級閉源模型。 GLM 5.2 是目前最具性價比的開源模型,以不到 Opus 4.8 六分之一的成本在前端生成上超越它,是開源 AI 應用落地的重要里程碑。 GLM 5.2 是目前最強的開源前端生成模型,在 Web Design 基準上排名第一,超過 Fable 5,且 Elo 達 1300,這是此前開源模型從未達到的水位。

重點整理

重點
  • 1

    GLM 5.2 是目前最強的開源前端生成模型,在 Web Design 基準上排名第一,超過 Fable 5,且 Elo 達 1300,這是此前開源模型從未達到的水位。

  • 2

    成本優勢是其核心競爭力,相同任務下 GLM 5.2 只需 $6,而 Claude Opus 4.8 需 $50,成本差距超過六倍,且速度更快,使其在商業應用場景具備明確優勢。

  • 3

    能力提升幅度顯著,相比前代 GLM 5.1,在深度推理提升 46.2%,並在 Frontier Suite 綜合評測中達到 Opus 4.8 的 74.4%,在 Terminal Bench 與 SWE-bench Pro 上也接近或超越多個閉源模型。

  • 4

    實際測試顯示前端生成品質突出,能完成 Airbnb 頁面仿製、Spotify UI、Minecraft 複製品、dungeon crawler 遊戲、macOS 桌面模擬、FPS 射擊遊戲及 3D 太陽系等複雜任務,且細節層次超過 Claude Opus。

實用技巧與重點

乾貨
  • 模型名稱:GLM 5.2(Max / High 兩版本),由 ZAI(智谱 AI)發布
  • 授權:MIT 開源授權,支援開放權重下載
  • Context Window:1 億 Token
  • API 定價:輸入 $1.20 / 百萬 Token;輸出 $4.10 / 百萬 Token
  • 對比成本:GLM 5.2 約 $6,Claude Opus 4.8 約 $50,差距超過 6 倍
  • Web Design Elo:1300,排名第一,超越 Fable 5
  • AI Coding Benchmark 排名:第五名
  • 深度推理提升幅度:相比 GLM 5.1 提升 46.2%
  • Frontier Suite 評測:達 Opus 4.8 的 74.4%
  • 弱點:微調(fine-tuning)、純邏輯推理、GENZI 相關功能
  • 推薦使用方式:AI Coding Benchmark 平台 / ZAI Chatbot / API / 開放權重本地部署
  • 測試展示任務:Airbnb 頁面仿製、Spotify UI、macOS 桌面模擬、dungeon crawler 遊戲、Minecraft 複製品、FPS 遊戲、3D 太陽系、程式生成樹木成長動畫

結論

結論

GLM 5.2 是目前最具性價比的開源模型,以不到 Opus 4.8 六分之一的成本在前端生成上超越它,是開源 AI 應用落地的重要里程碑。

完整解析

詳細

GLM 5.2 是 ZAI(智谱 AI)最新推出的旗艦開源大型語言模型,分為 Max 與 High 兩個版本,採 MIT 授權並提供開放權重下載。該模型主打超長上下文(1 億 Token)與強化的程式碼與前端生成能力,定位是在開源生態中挑戰 Gemini 2.5 Pro、Claude Opus 4.8 等頂級閉源模型。

在基準測試表現上,GLM 5.2 在 Web Design 排行榜拿下第一,Elo 達 1300,超越 Fable 5;在 AI Coding Benchmark 位居第五;在涵蓋推理、知識、語言理解的 Frontier Suite 綜合評測中,達到 Claude Opus 4.8 的 74.4%;與前代 GLM 5.1 相比,深度推理能力提升 46.2%。商業方面,GLM 5.2 在幾乎所有子任務上都超越 Gemini 2.5 Pro,且 Terminal Bench 與 SWE-bench Pro 的成績也接近 GPT-4.5 水準,被視為首個在多維度實際逼近閉源頂尖模型的開源選項。

成本方面,GLM 5.2 的 API 定價為輸入 $1.20、輸出 $4.10(每百萬 Token),實際任務成本約 $6,相比 Claude Opus 4.8 的 $50 便宜六倍以上,且生成速度更快。影片中的實測展示了多項複雜前端任務:模型能生成帶有完整互動邏輯的音效設定頁面、仿 Airbnb 的多頁瀏覽介面(含圖片渲染)、macOS 桌面環境模擬(含 Finder、Safari、深色模式切換)、Spotify 播放介面(含實際音樂播放)、dungeon crawler 遊戲(含鑰匙、門、怪物互動邏輯),以及 Minecraft 複製品與 FPS 射擊遊戲。3D 任務方面,模型也生成了可調速的太陽系模擬與具有細節動畫的樹木生長模型,部分結果被評為超越 Claude Opus 的同等測試輸出。

值得注意的是,GLM 5.2 並非全面無敵。影片中指出其在微調支援、純邏輯推理,以及特定 GENZI 功能上仍有明顯短板;macOS 模擬中部分 SVG 圖示未能正確生成。整體而言,講者給予 macOS 模擬 8/10 分,並強調 GLM 5.2 的最佳使用場景是需要高品質前端、3D 視覺化與遊戲原型的開發工作,建議透過 ZAI Chatbot、API 或本地開放權重部署來試用。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕