Claude 最强模型被禁!“开源越狱”才是真自由,实测3款热门无审查模型,是时候部署本地AI了 | 零度解说
三句話摘要
美國政府封鎖 Anthropic 最新模型引發的警示:如何在本地部署無審查開源大模型以取得完整控制權。 閉源模型的存取權可被隨時剝奪這件事已不再是假設——在本地部署可控的開源無審查模型,是目前規避單點依賴風險最直接的解法。 閉源模型的控制風險已從理論變為現實:Anthropic 模型被強制下架一事說明,當業務核心依賴單一閉源服務時,企業實際上不擁有這項能力,因為存取權可在毫無預警的情況下被剝奪。
重點整理
重點- 1
閉源模型的控制風險已從理論變為現實:Anthropic 模型被強制下架一事說明,當業務核心依賴單一閉源服務時,企業實際上不擁有這項能力,因為存取權可在毫無預警的情況下被剝奪。
- 2
開源模型的核心優勢是「可控性」而非「最強性能」:模型存於本地就不存在被下架或地區封鎖的問題,這是近兩年開源生態加速發展的根本驅動力。
- 3
Llama CPP 提供跨平台、跨硬體的本地推理方案:支援 CUDA(N 卡)、Vulkan(A 卡)、Intel GPU 及純 CPU 解碼,幾乎適配所有主流硬體環境,降低本地部署門檻。
- 4
越獄版模型配合 OpenAI 相容 API,可無縫整合現有 AI 工具鏈:通過 `127.0.0.1:8080/v1` 本地端點,可直接接入 OpenClaw、Hermes、Claude Code 等前端工具,完全免費且不受限制。
實用技巧與重點
乾貨- 模型選擇(依顯存大小):
- 顯存 8G~12G:Qwen3.6 35B A3B 量化版(越獄),檔案大小 11.7G~11.8G,支援視覺模型(MMProj),推理速度約 160 tokens/秒
- 顯存 12G~16G:Gemma4 31B Q3KM 越獄版,檔案大小 15.3G
- 顯存 24G:Gemma4 31B Q4KM 越獄版,檔案大小 18.7G
- 顯存 >24G:Gemma4 31B 滿血版,約 35G
- 工具與平台:
- 推理引擎:Llama CPP(最新版本 B9661,Windows CUDA / Vulkan / CPU 版)
- 前端對接工具:OpenClaw(小龍蝦)、Hermes、Claude Code
- 本地 API 端點:`127.0.0.1:8080`,路徑 `/v1`,API Key 留空
- 部署步驟:
- 下載對應顯存的模型檔(含視覺 MMProj 模型)
- 下載 Llama CPP 並解壓,在根目錄建立 `models` 資料夾存放模型
- 下載一鍵啟動腳本(`.bat`),存為 UTF-8 編碼放入 Llama CPP 根目錄
- 執行腳本,選擇對應模型編號,等待 5~10 秒啟動
- 瀏覽器輸入 `127.0.0.1:8080` 確認啟動成功
- 於 OpenClaw 選擇「自訂服務供應商」,填入 API base URL 與模型 ID 完成對接
- 實測結果:
- Qwen3.6 A3B 推理速度:約 160 tokens/秒
- Gemma4 Q3KM 推理速度:約 25 tokens/秒
- 成功生成 133 埠批量掃描腳本(官方審查模型拒絕執行的任務)
- 成功根據截圖生成可運行的網頁版紅色警戒小遊戲
結論
結論“閉源模型的存取權可被隨時剝奪這件事已不再是假設——在本地部署可控的開源無審查模型,是目前規避單點依賴風險最直接的解法。”
完整解析
詳細就在影片錄製前幾天,美國政府向 Anthropic 下達罕見指令,要求立即停止向所有外國用戶提供 Claude Fable 5 與 Mythos 5 這兩款最新模型的存取服務。這裡的「外國用戶」定義極廣,甚至涵蓋在美工作的外籍員工,而非針對特定國家。Anthropic 隨後直接關閉了這兩個模型的全球存取入口,且無論使用美國 VPN 皆無法繞過封鎖。這很可能是 AI 史上頭一遭,一個已公開上線的頂級商業模型被政府強制下架。
這一事件的深遠影響,講者認為並不在於 Anthropic 本身,而在於它揭示了一個長期被忽視的結構性風險:當企業的核心業務能力完全寄託在某個閉源模型服務上時,這項能力其實從未真正屬於自己。API 定價可以調漲、呼叫額度可以縮減、介面可以不相容地變更,存取權更可能在一夜之間消失。這正是近兩年開源模型生態迅速壯大的深層原因——開源模型最大的競爭優勢從來不是性能最強,而是「完全可控」:模型在本地跑,沒有下架風險,沒有地區限制。
基於這個背景,影片進入實操環節,示範如何用 Llama CPP 在本地部署兩款無審查開源模型。Llama CPP 支援 Windows / macOS / Linux,並針對 N 卡(CUDA)、A 卡(Vulkan)、Intel GPU 及純 CPU 提供不同版本,覆蓋大多數消費級硬體。模型方面提供三個選擇:適合低顯存用戶的 Qwen3.6 35B A3B 量化版(含視覺識別能力,推理速度極快,約 160 tokens/秒)、以及由 Google 開源的 Gemma4 31B,依顯存大小分 Q3KM 和 Q4KM 兩種量化規格。部署流程相對簡潔:下載模型後放入 Llama CPP 的 models 資料夾,執行一鍵啟動腳本(.bat 格式),5 到 10 秒內即可在 `127.0.0.1:8080` 看到可操作的 Web 介面。
實測階段,講者示範了越獄模型的兩個典型場景:一是生成 133 埠批量掃描腳本(官方 Anthropic 模型明確拒絕執行),二是讓 Qwen3.6 根據一張遊戲截圖,直接生成可在瀏覽器運行的網頁版紅色警戒小遊戲,均一次成功。最後,講者進一步示範將本地模型透過 OpenAI 相容 API(base URL 填入 `127.0.0.1:8080/v1`,API Key 留空)對接至 OpenClaw 前端工具,整個流程無需雲端服務,完全在本地運行、免費且不受任何內容審查限制。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


