Gemma 4 还是 Qwen？本地跑模型，我直接告诉你选谁

Kai on AI·4月21日週二·8 min中文

三句話摘要

在 Mac 本地端跑開源 AI 模型，依三種使用場景給出最優模型選擇，說明為何跑分更高的 Gemma 4 當前不適合取代 Qwen。跑分第一不代表當下最適用——本地 AI 選型應以場景穩定性為優先，Qwen 系列目前在 Agent 與編碼場景的生態成熟度仍優於剛開源的 Gemma 4。 MoE 與 Dense 模型速度差距是決定性的：MoE 模型每秒可生成 70–125 token、首次回應不到一秒；Dense 模型每秒僅 13–17 token、首次回應需 5–6 秒，上下文一長甚至拖到 20 秒以上，導致 Dense 模型在 Agent 與編碼場景根本無法使用。

重點整理

重點

1
MoE 與 Dense 模型速度差距是決定性的：MoE 模型每秒可生成 70–125 token、首次回應不到一秒；Dense 模型每秒僅 13–17 token、首次回應需 5–6 秒，上下文一長甚至拖到 20 秒以上，導致 Dense 模型在 Agent 與編碼場景根本無法使用。
2
跑分高不等於生態成熟：Gemma 4 在編碼基準上領先 Qwen 7–10 個百分點，但剛開源時工具調用格式與 Ollama、LM Studio、oMLX 全部不相容；即使框架陸續修補，邊界情況（如路徑含特殊字元）仍會出錯，而 Qwen 社群踩坑更久、框架適配更穩定。
3
量化版本的取捨邏輯清晰：4bit 量化比 8bit 快約 40%、記憶體減半，智力損失僅 2–3%，日常感受不到差異；32G 記憶體用 4bit，64G 以上才有必要上 8bit。
4
選模型的核心原則是場景優先：不應以跑分排名決定選型，而應以自己的使用場景判斷模型在該情境下能否穩定運行，這是避免踩坑的根本思路。

實用技巧與重點

乾貨

測試環境：Mac Studio M4 Max，推理框架 oMLX，測試包含 4bit 與 8bit 兩種量化
Qwen 3.6：35B MoE，每次推理激活 3B 參數，支援多模態（圖片識別），工具調用兼容 Ollama、LM Studio；32G RAM 用 4bit，64G 用 8bit
Qwen 3 Coder Next：80B MoE，每次激活 3B 參數，4bit 版記憶體佔用約 43G，需 64G 機器；8bit 版佔 80G 不推薦；不支援圖像輸入
Gemma 4 31B Dense：每秒生成 13 token，首次回應 5 秒以上，複雜編碼測試得分 76%，遙遙領先所有測試模型
MoE 速度：每秒 70–125 token，首次回應 < 1 秒
Dense 速度：每秒 13–17 token，首次回應 5–6 秒
4bit vs 8bit：速度快 40%，記憶體減半，智力損失 2–3%
Gemma 4 編碼優勢：領先 Qwen 7–10 個百分點，越難的測試差距越大
知識能力：Gemma 4 與 Qwen 幾乎打平，無顯著差距
完整評測數據：放於影片說明欄；選型框架：fankaishuo.ai

結論

“跑分第一不代表當下最適用——本地 AI 選型應以場景穩定性為優先，Qwen 系列目前在 Agent 與編碼場景的生態成熟度仍優於剛開源的 Gemma 4。”

完整解析

詳細

本影片的出發點是回應社群對「Gemma 4 開源後是否該換掉 Qwen」的大量討論。作者在 Mac Studio M4 Max 上使用 oMLX 推理框架，對多個主流本地開源模型進行 4bit 與 8bit 兩種量化的系統性測試，從速度與智力兩個維度取得實測數據，並依三種最常見的使用場景直接給出選型建議，試圖終結這場爭論。

在速度面，MoE（混合專家）架構與 Dense（完整參數）架構之間存在一個數量級的差距。MoE 模型因為每次推理只激活一小部分參數（Qwen 3.6 的 35B 模型每次僅激活 3B），每秒可輸出 70 到 125 個 token，首次回應不到一秒；而 Dense 模型所有參數全部參與運算，每秒只能輸出 13 到 17 個 token，首次回應動輒超過 5 秒，若上下文視窗擴大甚至拖到二十幾秒。這個速度差距直接決定了 Dense 模型在 Agent 編排與程式生成這類需要快速多輪交互的場景中根本無法使用，只適合偶爾問幾個複雜問題的純問答需求。

在智力面，Gemma 4 的知識能力與 Qwen 幾乎打平，但編碼能力有實質性優勢，領先 7 到 10 個百分點，Gemma 4 31B Dense 在最難的編碼測試中拿下 76% 的高分。然而恰恰是這個「編碼能力碾壓」的模型，在 Agent 場景中卻連工具調用都跑不穩——Gemma 4 剛開源時，其工具調用格式與 Ollama、LM Studio、oMLX 等主流框架全部不相容，直接報錯；儘管各框架陸續更新了兼容性修補，邊界情況（如路徑含特殊字元）仍會觸發錯誤。相比之下，Qwen 在社群中已運行更久，踩過的坑更多，框架適配更成熟，穩定性更有保障。

作者因此得出一個反直覺的結論：跑分高不等於當下能用。選型的核心邏輯應是「場景優先」——先確定自己的使用場景，再問哪個模型在這個場景下跑得最穩，而非盲目追求基準測試第一名。Gemma 4 的基礎能力上限是真實的，生態成熟只是時間問題，值得持續關注；但在當下，跑 Agent 就用 Qwen 3.6，跑程式生成就用 Qwen 3 Coder Next，追求極致準確度的純問答才考慮 Gemma 4 31B Dense，這是目前最務實的選擇。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Gemma 4 还是 Qwen？本地跑模型，我直接告诉你选谁

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備