Qwen3.6“越狱”了!目前最强无审查开源模型!支持本地 Agent,6G 显存都能跑!附部署教程|零度解说
三句話摘要
本地部署 QWEN 3.6 35B A3B 越獄版開源模型,實現無審查、無限制的本地 AI 自由。 QWEN 3.6 35B A3B 越獄量化版結合 llama.cpp,是目前門檻最低(6GB 顯存起)、能力最強、且真正實現本地無審查的開源 AI 部署方案。 越獄版不代表智商低:QWEN 3.6 35B A3B 在全球 AI 排行榜 Artificial Analysis 上,於 40B 以內開源模型中,中文理解、程式碼、多模態、長情境、推理能力幾乎全面霸榜,這意味著它同時具備能力強與無限制兩個優勢。
重點整理
重點- 1
越獄版不代表智商低:QWEN 3.6 35B A3B 在全球 AI 排行榜 Artificial Analysis 上,於 40B 以內開源模型中,中文理解、程式碼、多模態、長情境、推理能力幾乎全面霸榜,這意味著它同時具備能力強與無限制兩個優勢。
- 2
量化分級對應不同顯存:模型提供多個 GGUF 量化版本(IQ2M、IQ4NL、Q4KM、Q4KP),使用者可依據自己的顯存大小選擇對應版本,最低 6GB 即可運行,避免一刀切的硬體門檻。
- 3
llama.cpp 是本地部署的核心工具:講者選用 llama.cpp 作為推理引擎,原因是它是目前本地跑大模型最快的開源方案之一,且持續更新,支援多種 GPU 架構,Q4KP 版本在 24GB 顯存下每秒可達 80–95 token 的輸出速度。
- 4
本地模型可完整對接 Agent 生態:透過 llama.cpp 啟動後提供 OpenAI 相容的 API 端點(127.0.0.1:8080),可直接對接 Hermes、OpenCat、小龍蝦等 Agent 工具,實現聯網爬取新聞等自動化任務。
實用技巧與重點
乾貨- 模型名稱:QWEN 3.6 35B A3B 越獄版(Hugging Face 上月下載量超過 100 萬次)
- 量化版本對應顯存:
- IQ2M → 6–8GB 顯存,約 10GB 檔案
- IQ4NL → 16GB 顯存,約 18GB 檔案
- Q4KM / Q4KP → 24GB 顯存(如 3090/4090/5090)
- 最大版本 → 44GB 顯存
- 視覺模型:額外下載,大小約 899MB,為多模態功能必備
- 部署工具:llama.cpp,最新版本 B9297
- CUDA 版本選擇:
- 10 系/20 系顯卡 → CUDA 11.4
- 30 系/40 系/50 系顯卡 → CUDA 12.1(或 13.1)
- A 卡 → Vulkan 版本
- Intel 顯示卡 → SYCL 或 HIP
- API 端點:`127.0.0.1:8080`,OpenAI 相容格式,API 金鑰可任意填寫(如 123456)
- 上下文長度:腳本預設設定為 131072
- 速度測試:Q4KP 版約 25 token/s,穩定量化版可達 80–95 token/s
- 視覺能力驗證:模型選出的封面圖三,在 YouTube 真人點擊測試中以 36.6% 點擊率拿下第一
- 可對接 Agent 工具:Hermes、OpenCat、小龍蝦;第三方通訊平台:QQ、Telegram、微信
結論
結論“QWEN 3.6 35B A3B 越獄量化版結合 llama.cpp,是目前門檻最低(6GB 顯存起)、能力最強、且真正實現本地無審查的開源 AI 部署方案。”
完整解析
詳細隨著大型語言模型的普及,官方模型的審查機制日益嚴格,許多使用者在嘗試獲取敏感資訊、創作自由內容或測試極限問題時,往往遭遇一堵堵拒答的高牆。影片主題正是針對這個痛點,介紹如何在本地環境中部署一款真正無審查的開源越獄模型——QWEN 3.6 35B A3B 的量化越獄版,並完整示範從下載到運行的全流程。
講者首先對比官方版與越獄版的實際回應差異,說明同一問題在官方模型下完全拒絕,越獄版則毫無保留地輸出答案,包括戀愛技巧引導、成人內容提示詞、政治敏感話題等。更關鍵的是,這款模型並非犧牲能力換取「開放性」的低智模型——在 Artificial Analysis 的全球排行榜上,QWEN 3.6 35B A3B 在 40B 以下開源模型中幾乎全面霸榜,涵蓋中文理解、程式碼生成、多模態視覺、長情境處理與推理能力五大維度。
部署流程以 llama.cpp(B9297 版)為核心,步驟清晰:先根據顯存大小從 Hugging Face 下載對應的 GGUF 量化檔(6GB 顯存選 IQ2M 的 10GB 版,24GB 則選 Q4KM 或 Q4KP),再額外下載 899MB 的視覺模型,統一放入 models 資料夾。接著使用講者提供的一鍵啟動批次腳本,選擇對應量化版後即可啟動,llama.cpp 會在本地開啟 `127.0.0.1:8080` 的 OpenAI 相容 API 端點。實測中,Q4KP 版輸出速度約 25 token/s,切換至穩定量化版後速度提升至 80–95 token/s,達到流暢對話的體驗門檻。
功能驗證環節涵蓋四個方向:程式碼生成方面,模型一次生成了含 UI 介面、音效、闖關與 BOSS 機制的飛機大戰遊戲,可直接運行;多模態方面,模型從三個 YouTube 封面中選出圖三為點擊率最高,事後比對 YouTube 後台真人數萬次點擊數據,圖三以 36.6% 點擊率奪冠,印證其視覺判斷準確;越獄內容方面,成人小說、成人圖像提示詞、政治話題等均可輸出,官方版全數拒答;Agent 方面,透過 Hermes 對接後,模型能主動爬取最新 AI 熱門新聞,實現聯網自動化任務。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


