Qwen3.6“越狱”了！目前最强无审查开源模型！支持本地 Agent，6G 显存都能跑！附部署教程｜零度解说

零度解说·5月24日週日·11 min中文

三句話摘要

本地部署 QWEN 3.6 35B A3B 越獄版開源模型，實現無審查、無限制的本地 AI 自由。 QWEN 3.6 35B A3B 越獄量化版結合 llama.cpp，是目前門檻最低（6GB 顯存起）、能力最強、且真正實現本地無審查的開源 AI 部署方案。 越獄版不代表智商低：QWEN 3.6 35B A3B 在全球 AI 排行榜 Artificial Analysis 上，於 40B 以內開源模型中，中文理解、程式碼、多模態、長情境、推理能力幾乎全面霸榜，這意味著它同時具備能力強與無限制兩個優勢。

重點整理

重點

1
越獄版不代表智商低：QWEN 3.6 35B A3B 在全球 AI 排行榜 Artificial Analysis 上，於 40B 以內開源模型中，中文理解、程式碼、多模態、長情境、推理能力幾乎全面霸榜，這意味著它同時具備能力強與無限制兩個優勢。
2
量化分級對應不同顯存：模型提供多個 GGUF 量化版本（IQ2M、IQ4NL、Q4KM、Q4KP），使用者可依據自己的顯存大小選擇對應版本，最低 6GB 即可運行，避免一刀切的硬體門檻。
3
llama.cpp 是本地部署的核心工具：講者選用 llama.cpp 作為推理引擎，原因是它是目前本地跑大模型最快的開源方案之一，且持續更新，支援多種 GPU 架構，Q4KP 版本在 24GB 顯存下每秒可達 80–95 token 的輸出速度。
4
本地模型可完整對接 Agent 生態：透過 llama.cpp 啟動後提供 OpenAI 相容的 API 端點（127.0.0.1:8080），可直接對接 Hermes、OpenCat、小龍蝦等 Agent 工具，實現聯網爬取新聞等自動化任務。

實用技巧與重點

乾貨

模型名稱：QWEN 3.6 35B A3B 越獄版（Hugging Face 上月下載量超過 100 萬次）
量化版本對應顯存：
IQ2M → 6–8GB 顯存，約 10GB 檔案
IQ4NL → 16GB 顯存，約 18GB 檔案
Q4KM / Q4KP → 24GB 顯存（如 3090/4090/5090）
最大版本 → 44GB 顯存
視覺模型：額外下載，大小約 899MB，為多模態功能必備
部署工具：llama.cpp，最新版本 B9297
CUDA 版本選擇：
10 系/20 系顯卡 → CUDA 11.4
30 系/40 系/50 系顯卡 → CUDA 12.1（或 13.1）
A 卡 → Vulkan 版本
Intel 顯示卡 → SYCL 或 HIP
API 端點：`127.0.0.1:8080`，OpenAI 相容格式，API 金鑰可任意填寫（如 123456）
上下文長度：腳本預設設定為 131072
速度測試：Q4KP 版約 25 token/s，穩定量化版可達 80–95 token/s
視覺能力驗證：模型選出的封面圖三，在 YouTube 真人點擊測試中以 36.6% 點擊率拿下第一
可對接 Agent 工具：Hermes、OpenCat、小龍蝦；第三方通訊平台：QQ、Telegram、微信

結論

“QWEN 3.6 35B A3B 越獄量化版結合 llama.cpp，是目前門檻最低（6GB 顯存起）、能力最強、且真正實現本地無審查的開源 AI 部署方案。”

完整解析

詳細

隨著大型語言模型的普及，官方模型的審查機制日益嚴格，許多使用者在嘗試獲取敏感資訊、創作自由內容或測試極限問題時，往往遭遇一堵堵拒答的高牆。影片主題正是針對這個痛點，介紹如何在本地環境中部署一款真正無審查的開源越獄模型——QWEN 3.6 35B A3B 的量化越獄版，並完整示範從下載到運行的全流程。

講者首先對比官方版與越獄版的實際回應差異，說明同一問題在官方模型下完全拒絕，越獄版則毫無保留地輸出答案，包括戀愛技巧引導、成人內容提示詞、政治敏感話題等。更關鍵的是，這款模型並非犧牲能力換取「開放性」的低智模型——在 Artificial Analysis 的全球排行榜上，QWEN 3.6 35B A3B 在 40B 以下開源模型中幾乎全面霸榜，涵蓋中文理解、程式碼生成、多模態視覺、長情境處理與推理能力五大維度。

部署流程以 llama.cpp（B9297 版）為核心，步驟清晰：先根據顯存大小從 Hugging Face 下載對應的 GGUF 量化檔（6GB 顯存選 IQ2M 的 10GB 版，24GB 則選 Q4KM 或 Q4KP），再額外下載 899MB 的視覺模型，統一放入 models 資料夾。接著使用講者提供的一鍵啟動批次腳本，選擇對應量化版後即可啟動，llama.cpp 會在本地開啟 `127.0.0.1:8080` 的 OpenAI 相容 API 端點。實測中，Q4KP 版輸出速度約 25 token/s，切換至穩定量化版後速度提升至 80–95 token/s，達到流暢對話的體驗門檻。

功能驗證環節涵蓋四個方向：程式碼生成方面，模型一次生成了含 UI 介面、音效、闖關與 BOSS 機制的飛機大戰遊戲，可直接運行；多模態方面，模型從三個 YouTube 封面中選出圖三為點擊率最高，事後比對 YouTube 後台真人數萬次點擊數據，圖三以 36.6% 點擊率奪冠，印證其視覺判斷準確；越獄內容方面，成人小說、成人圖像提示詞、政治話題等均可輸出，官方版全數拒答；Agent 方面，透過 Hermes 對接後，模型能主動爬取最新 AI 熱門新聞，實現聯網自動化任務。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Qwen3.6“越狱”了！目前最强无审查开源模型！支持本地 Agent，6G 显存都能跑！附部署教程｜零度解说

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備