KeyFrame

Gemma 4 还是 Qwen?本地跑模型,我直接告诉你选谁

Kai on AI·4月21日週二·8 min中文

三句話摘要

在 Mac 本地端跑開源 AI 模型,依三種使用場景給出最優模型選擇,說明為何跑分更高的 Gemma 4 當前不適合取代 Qwen。 跑分第一不代表當下最適用——本地 AI 選型應以場景穩定性為優先,Qwen 系列目前在 Agent 與編碼場景的生態成熟度仍優於剛開源的 Gemma 4。 MoE 與 Dense 模型速度差距是決定性的:MoE 模型每秒可生成 70–125 token、首次回應不到一秒;Dense 模型每秒僅 13–17 token、首次回應需 5–6 秒,上下文一長甚至拖到 20 秒以上,導致 Dense 模型在 Agent 與編碼場景根本無法使用。

重點整理

重點
  • 1

    MoE 與 Dense 模型速度差距是決定性的:MoE 模型每秒可生成 70–125 token、首次回應不到一秒;Dense 模型每秒僅 13–17 token、首次回應需 5–6 秒,上下文一長甚至拖到 20 秒以上,導致 Dense 模型在 Agent 與編碼場景根本無法使用。

  • 2

    跑分高不等於生態成熟:Gemma 4 在編碼基準上領先 Qwen 7–10 個百分點,但剛開源時工具調用格式與 Ollama、LM Studio、oMLX 全部不相容;即使框架陸續修補,邊界情況(如路徑含特殊字元)仍會出錯,而 Qwen 社群踩坑更久、框架適配更穩定。

  • 3

    量化版本的取捨邏輯清晰:4bit 量化比 8bit 快約 40%、記憶體減半,智力損失僅 2–3%,日常感受不到差異;32G 記憶體用 4bit,64G 以上才有必要上 8bit。

  • 4

    選模型的核心原則是場景優先:不應以跑分排名決定選型,而應以自己的使用場景判斷模型在該情境下能否穩定運行,這是避免踩坑的根本思路。

實用技巧與重點

乾貨
  • 測試環境:Mac Studio M4 Max,推理框架 oMLX,測試包含 4bit 與 8bit 兩種量化
  • Qwen 3.6:35B MoE,每次推理激活 3B 參數,支援多模態(圖片識別),工具調用兼容 Ollama、LM Studio;32G RAM 用 4bit,64G 用 8bit
  • Qwen 3 Coder Next:80B MoE,每次激活 3B 參數,4bit 版記憶體佔用約 43G,需 64G 機器;8bit 版佔 80G 不推薦;不支援圖像輸入
  • Gemma 4 31B Dense:每秒生成 13 token,首次回應 5 秒以上,複雜編碼測試得分 76%,遙遙領先所有測試模型
  • MoE 速度:每秒 70–125 token,首次回應 < 1 秒
  • Dense 速度:每秒 13–17 token,首次回應 5–6 秒
  • 4bit vs 8bit:速度快 40%,記憶體減半,智力損失 2–3%
  • Gemma 4 編碼優勢:領先 Qwen 7–10 個百分點,越難的測試差距越大
  • 知識能力:Gemma 4 與 Qwen 幾乎打平,無顯著差距
  • 完整評測數據:放於影片說明欄;選型框架:fankaishuo.ai

結論

結論

跑分第一不代表當下最適用——本地 AI 選型應以場景穩定性為優先,Qwen 系列目前在 Agent 與編碼場景的生態成熟度仍優於剛開源的 Gemma 4。

完整解析

詳細

本影片的出發點是回應社群對「Gemma 4 開源後是否該換掉 Qwen」的大量討論。作者在 Mac Studio M4 Max 上使用 oMLX 推理框架,對多個主流本地開源模型進行 4bit 與 8bit 兩種量化的系統性測試,從速度與智力兩個維度取得實測數據,並依三種最常見的使用場景直接給出選型建議,試圖終結這場爭論。

在速度面,MoE(混合專家)架構與 Dense(完整參數)架構之間存在一個數量級的差距。MoE 模型因為每次推理只激活一小部分參數(Qwen 3.6 的 35B 模型每次僅激活 3B),每秒可輸出 70 到 125 個 token,首次回應不到一秒;而 Dense 模型所有參數全部參與運算,每秒只能輸出 13 到 17 個 token,首次回應動輒超過 5 秒,若上下文視窗擴大甚至拖到二十幾秒。這個速度差距直接決定了 Dense 模型在 Agent 編排與程式生成這類需要快速多輪交互的場景中根本無法使用,只適合偶爾問幾個複雜問題的純問答需求。

在智力面,Gemma 4 的知識能力與 Qwen 幾乎打平,但編碼能力有實質性優勢,領先 7 到 10 個百分點,Gemma 4 31B Dense 在最難的編碼測試中拿下 76% 的高分。然而恰恰是這個「編碼能力碾壓」的模型,在 Agent 場景中卻連工具調用都跑不穩——Gemma 4 剛開源時,其工具調用格式與 Ollama、LM Studio、oMLX 等主流框架全部不相容,直接報錯;儘管各框架陸續更新了兼容性修補,邊界情況(如路徑含特殊字元)仍會觸發錯誤。相比之下,Qwen 在社群中已運行更久,踩過的坑更多,框架適配更成熟,穩定性更有保障。

作者因此得出一個反直覺的結論:跑分高不等於當下能用。選型的核心邏輯應是「場景優先」——先確定自己的使用場景,再問哪個模型在這個場景下跑得最穩,而非盲目追求基準測試第一名。Gemma 4 的基礎能力上限是真實的,生態成熟只是時間問題,值得持續關注;但在當下,跑 Agent 就用 Qwen 3.6,跑程式生成就用 Qwen 3 Coder Next,追求極致準確度的純問答才考慮 Gemma 4 31B Dense,這是目前最務實的選擇。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕