Claude 最强模型被禁！“开源越狱”才是真自由，实测3款热门无审查模型，是时候部署本地AI了 | 零度解说

零度解说·6月16日週二·11 min中文

三句話摘要

美國政府封鎖 Anthropic 最新模型引發的警示：如何在本地部署無審查開源大模型以取得完整控制權。閉源模型的存取權可被隨時剝奪這件事已不再是假設——在本地部署可控的開源無審查模型，是目前規避單點依賴風險最直接的解法。 閉源模型的控制風險已從理論變為現實：Anthropic 模型被強制下架一事說明，當業務核心依賴單一閉源服務時，企業實際上不擁有這項能力，因為存取權可在毫無預警的情況下被剝奪。

重點整理

重點

1
閉源模型的控制風險已從理論變為現實：Anthropic 模型被強制下架一事說明，當業務核心依賴單一閉源服務時，企業實際上不擁有這項能力，因為存取權可在毫無預警的情況下被剝奪。
2
開源模型的核心優勢是「可控性」而非「最強性能」：模型存於本地就不存在被下架或地區封鎖的問題，這是近兩年開源生態加速發展的根本驅動力。
3
Llama CPP 提供跨平台、跨硬體的本地推理方案：支援 CUDA（N 卡）、Vulkan（A 卡）、Intel GPU 及純 CPU 解碼，幾乎適配所有主流硬體環境，降低本地部署門檻。
4
越獄版模型配合 OpenAI 相容 API，可無縫整合現有 AI 工具鏈：通過 `127.0.0.1:8080/v1` 本地端點，可直接接入 OpenClaw、Hermes、Claude Code 等前端工具，完全免費且不受限制。

實用技巧與重點

乾貨

模型選擇（依顯存大小）：
顯存 8G～12G：Qwen3.6 35B A3B 量化版（越獄），檔案大小 11.7G～11.8G，支援視覺模型（MMProj），推理速度約 160 tokens/秒
顯存 12G～16G：Gemma4 31B Q3KM 越獄版，檔案大小 15.3G
顯存 24G：Gemma4 31B Q4KM 越獄版，檔案大小 18.7G
顯存 >24G：Gemma4 31B 滿血版，約 35G
工具與平台：
推理引擎：Llama CPP（最新版本 B9661，Windows CUDA / Vulkan / CPU 版）
前端對接工具：OpenClaw（小龍蝦）、Hermes、Claude Code
本地 API 端點：`127.0.0.1:8080`，路徑 `/v1`，API Key 留空
部署步驟：
下載對應顯存的模型檔（含視覺 MMProj 模型）
下載 Llama CPP 並解壓，在根目錄建立 `models` 資料夾存放模型
下載一鍵啟動腳本（`.bat`），存為 UTF-8 編碼放入 Llama CPP 根目錄
執行腳本，選擇對應模型編號，等待 5～10 秒啟動
瀏覽器輸入 `127.0.0.1:8080` 確認啟動成功
於 OpenClaw 選擇「自訂服務供應商」，填入 API base URL 與模型 ID 完成對接
實測結果：
Qwen3.6 A3B 推理速度：約 160 tokens/秒
Gemma4 Q3KM 推理速度：約 25 tokens/秒
成功生成 133 埠批量掃描腳本（官方審查模型拒絕執行的任務）
成功根據截圖生成可運行的網頁版紅色警戒小遊戲

結論

“閉源模型的存取權可被隨時剝奪這件事已不再是假設——在本地部署可控的開源無審查模型，是目前規避單點依賴風險最直接的解法。”

完整解析

詳細

就在影片錄製前幾天，美國政府向 Anthropic 下達罕見指令，要求立即停止向所有外國用戶提供 Claude Fable 5 與 Mythos 5 這兩款最新模型的存取服務。這裡的「外國用戶」定義極廣，甚至涵蓋在美工作的外籍員工，而非針對特定國家。Anthropic 隨後直接關閉了這兩個模型的全球存取入口，且無論使用美國 VPN 皆無法繞過封鎖。這很可能是 AI 史上頭一遭，一個已公開上線的頂級商業模型被政府強制下架。

這一事件的深遠影響，講者認為並不在於 Anthropic 本身，而在於它揭示了一個長期被忽視的結構性風險：當企業的核心業務能力完全寄託在某個閉源模型服務上時，這項能力其實從未真正屬於自己。API 定價可以調漲、呼叫額度可以縮減、介面可以不相容地變更，存取權更可能在一夜之間消失。這正是近兩年開源模型生態迅速壯大的深層原因——開源模型最大的競爭優勢從來不是性能最強，而是「完全可控」：模型在本地跑，沒有下架風險，沒有地區限制。

基於這個背景，影片進入實操環節，示範如何用 Llama CPP 在本地部署兩款無審查開源模型。Llama CPP 支援 Windows / macOS / Linux，並針對 N 卡（CUDA）、A 卡（Vulkan）、Intel GPU 及純 CPU 提供不同版本，覆蓋大多數消費級硬體。模型方面提供三個選擇：適合低顯存用戶的 Qwen3.6 35B A3B 量化版（含視覺識別能力，推理速度極快，約 160 tokens/秒）、以及由 Google 開源的 Gemma4 31B，依顯存大小分 Q3KM 和 Q4KM 兩種量化規格。部署流程相對簡潔：下載模型後放入 Llama CPP 的 models 資料夾，執行一鍵啟動腳本（.bat 格式），5 到 10 秒內即可在 `127.0.0.1:8080` 看到可操作的 Web 介面。

實測階段，講者示範了越獄模型的兩個典型場景：一是生成 133 埠批量掃描腳本（官方 Anthropic 模型明確拒絕執行），二是讓 Qwen3.6 根據一張遊戲截圖，直接生成可在瀏覽器運行的網頁版紅色警戒小遊戲，均一次成功。最後，講者進一步示範將本地模型透過 OpenAI 相容 API（base URL 填入 `127.0.0.1:8080/v1`，API Key 留空）對接至 OpenClaw 前端工具，整個流程無需雲端服務，完全在本地運行、免費且不受任何內容審查限制。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Claude 最强模型被禁！“开源越狱”才是真自由，实测3款热门无审查模型，是时候部署本地AI了 | 零度解说

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備