KeyFrame

GLM 5.2 | First impressions

Arena AI·6月19日週五·35 min英文

三句話摘要

以 Agent Arena 實測為核心,全面比較開源模型 GLM-5.2 與 Claude(Fable)、GPT-5.5 在 3D 生成、資料視覺化及知識工作三大領域的真實表現。 --- GLM-5.2 作為 MIT 開源模型在知識工作上已具備實用水準,但在視覺生成品質上與 Claude 的差距遠比基準測試數字所呈現的更真實,選用時務必以自身任務場景實測驗證。 GLM-5.2 以開源姿態切入頂級競爭:GLM-5.2 是 MIT 授權的開源模型,約 750 億參數,在 Agent Arena 排行榜進入前十,官方聲稱表現介於 Claude Opus 4.8 與 GPT-5.5 之間,甚至在部分指標上宣稱超越 Claude,但講者實測後認為差距仍存在。

重點整理

重點
  • 1

    GLM-5.2 以開源姿態切入頂級競爭:GLM-5.2 是 MIT 授權的開源模型,約 750 億參數,在 Agent Arena 排行榜進入前十,官方聲稱表現介於 Claude Opus 4.8 與 GPT-5.5 之間,甚至在部分指標上宣稱超越 Claude,但講者實測後認為差距仍存在。

  • 2

    3D 視覺生成仍有明顯落差:在複雜 3D 場景生成(如城市景觀、動態蜜蜂、飛行模擬等)中,GLM-5.2 表現尚可,但與 Claude(Fable)的輸出品質相比細節、動態感、場景一致性均有差距;GPT-5.5 在部分測試中甚至表現更差。

  • 3

    知識工作與資料視覺化差距相對縮小:在研究整合與互動式資料展示任務(如 AI 投資分析、地震資料視覺化)中,GLM-5.2 的輸出品質與頂級模型差距明顯縮窄,講者認為部分場景已可實際採用,但仍需使用者投入大量後續調整工作。

  • 4

    開源模型的性價比優勢值得重新定位:GLM-5.2 以開源、MIT 授權、可在個人電腦上部署的特性,相對於閉源商業模型具備顯著成本優勢,講者認為在對品質要求不極端的任務上,它是值得認真考慮的替代方案。

  • 5

    --

實用技巧與重點

乾貨
  • 模型名稱:GLM-5.2(JLM 5.2)、Claude Opus 4.8(Fable)、GPT-5.5(GPT 5.5 高)
  • GLM-5.2 參數規模:約 750 億(750B)
  • 授權類型:MIT License(開源)
  • 可在個人電腦上本地運行
  • Agent Arena 排行榜排名:第 10 名
  • 官方宣稱性能區間:介於 Claude Opus 4.8 與 GPT-5.5 之間
  • 測試任務類型:3D 城市場景生成、動態生物動畫(蜜蜂)、飛行遊戲模擬、互動式研究展示、AI 投資資料分析(含 2024 預測數據)、全球貨幣視覺化、地震資料動態地圖
  • 資料視覺化參考靈感:Hans Rosling / Gapminder 風格
  • 比較基準工具:Agent Arena 排行榜
  • --

結論

結論

GLM-5.2 作為 MIT 開源模型在知識工作上已具備實用水準,但在視覺生成品質上與 Claude 的差距遠比基準測試數字所呈現的更真實,選用時務必以自身任務場景實測驗證。

完整解析

詳細

這支影片的出發點是 GLM-5.2 的正式發布——這是一個來自中國智譜 AI 的開源大模型,以 MIT 授權釋出,參數規模約 750 億,在 Agent Arena 排行榜上進入前十名。官方聲稱其表現介於 Claude Opus 4.8 與 GPT-5.5 之間,甚至在某些基準測試上主張超過 Claude。講者對這樣的宣稱保持謹慎,決定透過實際場景測試驗證這個說法。

在 3D 視覺生成的部分,講者給了三個模型高度複雜的提示,包含動態城市景觀、蜜蜂飛行動畫,以及模擬飛行遊戲場景。GLM-5.2 整體表現「尚可」,城市場景的構圖有一定水準,飛行模擬的控制感也優於 GPT-5.5;但與 Claude 相比,細節豐富度、動態流暢度和場景一致性仍有明顯差距。GPT-5.5 在蜜蜂動畫測試中表現最差,而 Claude 的輸出在講者眼中仍是這個類別的標竿。

轉向知識工作與互動式資料視覺化後,局面有所不同。講者讓三個模型分別完成「研究全球最有趣設計並生成 3D 互動展示」以及「分析 AI 投資市場並整合成報告型展示」兩類任務。在這些任務中,GLM-5.2 的輸出雖然在設計美感上仍不及 Claude 的豐富故事感,但已能產出包含有意義圖表、預測數據和多元資料來源的結果,與 GPT-5.5 的差距相當有限。講者特別指出,Claude 生成的地震資料動態地圖和全球貨幣趨勢視覺化令人印象深刻,但 GLM-5.2 在同類任務中並未完全落後。

最終,講者提出一個核心結論:基準測試的數字與真實使用體驗之間存在落差。當你在排行榜上看到 GLM-5.2 與頂級模型「僅差幾分」,現實的生成品質差異其實比數字顯示的要大,尤其在 3D 生成與創意視覺化領域。然而考量到 GLM-5.2 是開源、MIT 授權、可本地部署且成本遠低於商業模型,對於研究整合、知識工作等不需要極致視覺品質的應用場景,它已具備相當的實用性。從 GLM-5.1 到 5.2 的進步幅度讓講者期待未來版本,並鼓勵觀眾親自測試各自的使用場景。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕