Gemma 4 还是 Qwen?本地跑模型,我直接告诉你选谁
三句話摘要
在 Mac 本地端跑開源 AI 模型,依三種使用場景給出最優模型選擇,說明為何跑分更高的 Gemma 4 當前不適合取代 Qwen。 跑分第一不代表當下最適用——本地 AI 選型應以場景穩定性為優先,Qwen 系列目前在 Agent 與編碼場景的生態成熟度仍優於剛開源的 Gemma 4。 MoE 與 Dense 模型速度差距是決定性的:MoE 模型每秒可生成 70–125 token、首次回應不到一秒;Dense 模型每秒僅 13–17 token、首次回應需 5–6 秒,上下文一長甚至拖到 20 秒以上,導致 Dense 模型在 Agent 與編碼場景根本無法使用。
重點整理
重點- 1
MoE 與 Dense 模型速度差距是決定性的:MoE 模型每秒可生成 70–125 token、首次回應不到一秒;Dense 模型每秒僅 13–17 token、首次回應需 5–6 秒,上下文一長甚至拖到 20 秒以上,導致 Dense 模型在 Agent 與編碼場景根本無法使用。
- 2
跑分高不等於生態成熟:Gemma 4 在編碼基準上領先 Qwen 7–10 個百分點,但剛開源時工具調用格式與 Ollama、LM Studio、oMLX 全部不相容;即使框架陸續修補,邊界情況(如路徑含特殊字元)仍會出錯,而 Qwen 社群踩坑更久、框架適配更穩定。
- 3
量化版本的取捨邏輯清晰:4bit 量化比 8bit 快約 40%、記憶體減半,智力損失僅 2–3%,日常感受不到差異;32G 記憶體用 4bit,64G 以上才有必要上 8bit。
- 4
選模型的核心原則是場景優先:不應以跑分排名決定選型,而應以自己的使用場景判斷模型在該情境下能否穩定運行,這是避免踩坑的根本思路。
實用技巧與重點
乾貨- 測試環境:Mac Studio M4 Max,推理框架 oMLX,測試包含 4bit 與 8bit 兩種量化
- Qwen 3.6:35B MoE,每次推理激活 3B 參數,支援多模態(圖片識別),工具調用兼容 Ollama、LM Studio;32G RAM 用 4bit,64G 用 8bit
- Qwen 3 Coder Next:80B MoE,每次激活 3B 參數,4bit 版記憶體佔用約 43G,需 64G 機器;8bit 版佔 80G 不推薦;不支援圖像輸入
- Gemma 4 31B Dense:每秒生成 13 token,首次回應 5 秒以上,複雜編碼測試得分 76%,遙遙領先所有測試模型
- MoE 速度:每秒 70–125 token,首次回應 < 1 秒
- Dense 速度:每秒 13–17 token,首次回應 5–6 秒
- 4bit vs 8bit:速度快 40%,記憶體減半,智力損失 2–3%
- Gemma 4 編碼優勢:領先 Qwen 7–10 個百分點,越難的測試差距越大
- 知識能力:Gemma 4 與 Qwen 幾乎打平,無顯著差距
- 完整評測數據:放於影片說明欄;選型框架:fankaishuo.ai
結論
結論“跑分第一不代表當下最適用——本地 AI 選型應以場景穩定性為優先,Qwen 系列目前在 Agent 與編碼場景的生態成熟度仍優於剛開源的 Gemma 4。”
完整解析
詳細本影片的出發點是回應社群對「Gemma 4 開源後是否該換掉 Qwen」的大量討論。作者在 Mac Studio M4 Max 上使用 oMLX 推理框架,對多個主流本地開源模型進行 4bit 與 8bit 兩種量化的系統性測試,從速度與智力兩個維度取得實測數據,並依三種最常見的使用場景直接給出選型建議,試圖終結這場爭論。
在速度面,MoE(混合專家)架構與 Dense(完整參數)架構之間存在一個數量級的差距。MoE 模型因為每次推理只激活一小部分參數(Qwen 3.6 的 35B 模型每次僅激活 3B),每秒可輸出 70 到 125 個 token,首次回應不到一秒;而 Dense 模型所有參數全部參與運算,每秒只能輸出 13 到 17 個 token,首次回應動輒超過 5 秒,若上下文視窗擴大甚至拖到二十幾秒。這個速度差距直接決定了 Dense 模型在 Agent 編排與程式生成這類需要快速多輪交互的場景中根本無法使用,只適合偶爾問幾個複雜問題的純問答需求。
在智力面,Gemma 4 的知識能力與 Qwen 幾乎打平,但編碼能力有實質性優勢,領先 7 到 10 個百分點,Gemma 4 31B Dense 在最難的編碼測試中拿下 76% 的高分。然而恰恰是這個「編碼能力碾壓」的模型,在 Agent 場景中卻連工具調用都跑不穩——Gemma 4 剛開源時,其工具調用格式與 Ollama、LM Studio、oMLX 等主流框架全部不相容,直接報錯;儘管各框架陸續更新了兼容性修補,邊界情況(如路徑含特殊字元)仍會觸發錯誤。相比之下,Qwen 在社群中已運行更久,踩過的坑更多,框架適配更成熟,穩定性更有保障。
作者因此得出一個反直覺的結論:跑分高不等於當下能用。選型的核心邏輯應是「場景優先」——先確定自己的使用場景,再問哪個模型在這個場景下跑得最穩,而非盲目追求基準測試第一名。Gemma 4 的基礎能力上限是真實的,生態成熟只是時間問題,值得持續關注;但在當下,跑 Agent 就用 Qwen 3.6,跑程式生成就用 Qwen 3 Coder Next,追求極致準確度的純問答才考慮 Gemma 4 31B Dense,這是目前最務實的選擇。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


