KeyFrame

Qwen3.6“越狱”了!目前最强无审查开源模型!支持本地 Agent,6G 显存都能跑!附部署教程|零度解说

零度解说·5月24日週日·11 min中文

三句話摘要

本地部署 QWEN 3.6 35B A3B 越獄版開源模型,實現無審查、無限制的本地 AI 自由。 QWEN 3.6 35B A3B 越獄量化版結合 llama.cpp,是目前門檻最低(6GB 顯存起)、能力最強、且真正實現本地無審查的開源 AI 部署方案。 越獄版不代表智商低:QWEN 3.6 35B A3B 在全球 AI 排行榜 Artificial Analysis 上,於 40B 以內開源模型中,中文理解、程式碼、多模態、長情境、推理能力幾乎全面霸榜,這意味著它同時具備能力強與無限制兩個優勢。

重點整理

重點
  • 1

    越獄版不代表智商低:QWEN 3.6 35B A3B 在全球 AI 排行榜 Artificial Analysis 上,於 40B 以內開源模型中,中文理解、程式碼、多模態、長情境、推理能力幾乎全面霸榜,這意味著它同時具備能力強與無限制兩個優勢。

  • 2

    量化分級對應不同顯存:模型提供多個 GGUF 量化版本(IQ2M、IQ4NL、Q4KM、Q4KP),使用者可依據自己的顯存大小選擇對應版本,最低 6GB 即可運行,避免一刀切的硬體門檻。

  • 3

    llama.cpp 是本地部署的核心工具:講者選用 llama.cpp 作為推理引擎,原因是它是目前本地跑大模型最快的開源方案之一,且持續更新,支援多種 GPU 架構,Q4KP 版本在 24GB 顯存下每秒可達 80–95 token 的輸出速度。

  • 4

    本地模型可完整對接 Agent 生態:透過 llama.cpp 啟動後提供 OpenAI 相容的 API 端點(127.0.0.1:8080),可直接對接 Hermes、OpenCat、小龍蝦等 Agent 工具,實現聯網爬取新聞等自動化任務。

實用技巧與重點

乾貨
  • 模型名稱:QWEN 3.6 35B A3B 越獄版(Hugging Face 上月下載量超過 100 萬次)
  • 量化版本對應顯存
  • IQ2M → 6–8GB 顯存,約 10GB 檔案
  • IQ4NL → 16GB 顯存,約 18GB 檔案
  • Q4KM / Q4KP → 24GB 顯存(如 3090/4090/5090)
  • 最大版本 → 44GB 顯存
  • 視覺模型:額外下載,大小約 899MB,為多模態功能必備
  • 部署工具:llama.cpp,最新版本 B9297
  • CUDA 版本選擇
  • 10 系/20 系顯卡 → CUDA 11.4
  • 30 系/40 系/50 系顯卡 → CUDA 12.1(或 13.1)
  • A 卡 → Vulkan 版本
  • Intel 顯示卡 → SYCL 或 HIP
  • API 端點:`127.0.0.1:8080`,OpenAI 相容格式,API 金鑰可任意填寫(如 123456)
  • 上下文長度:腳本預設設定為 131072
  • 速度測試:Q4KP 版約 25 token/s,穩定量化版可達 80–95 token/s
  • 視覺能力驗證:模型選出的封面圖三,在 YouTube 真人點擊測試中以 36.6% 點擊率拿下第一
  • 可對接 Agent 工具:Hermes、OpenCat、小龍蝦;第三方通訊平台:QQ、Telegram、微信

結論

結論

QWEN 3.6 35B A3B 越獄量化版結合 llama.cpp,是目前門檻最低(6GB 顯存起)、能力最強、且真正實現本地無審查的開源 AI 部署方案。

完整解析

詳細

隨著大型語言模型的普及,官方模型的審查機制日益嚴格,許多使用者在嘗試獲取敏感資訊、創作自由內容或測試極限問題時,往往遭遇一堵堵拒答的高牆。影片主題正是針對這個痛點,介紹如何在本地環境中部署一款真正無審查的開源越獄模型——QWEN 3.6 35B A3B 的量化越獄版,並完整示範從下載到運行的全流程。

講者首先對比官方版與越獄版的實際回應差異,說明同一問題在官方模型下完全拒絕,越獄版則毫無保留地輸出答案,包括戀愛技巧引導、成人內容提示詞、政治敏感話題等。更關鍵的是,這款模型並非犧牲能力換取「開放性」的低智模型——在 Artificial Analysis 的全球排行榜上,QWEN 3.6 35B A3B 在 40B 以下開源模型中幾乎全面霸榜,涵蓋中文理解、程式碼生成、多模態視覺、長情境處理與推理能力五大維度。

部署流程以 llama.cpp(B9297 版)為核心,步驟清晰:先根據顯存大小從 Hugging Face 下載對應的 GGUF 量化檔(6GB 顯存選 IQ2M 的 10GB 版,24GB 則選 Q4KM 或 Q4KP),再額外下載 899MB 的視覺模型,統一放入 models 資料夾。接著使用講者提供的一鍵啟動批次腳本,選擇對應量化版後即可啟動,llama.cpp 會在本地開啟 `127.0.0.1:8080` 的 OpenAI 相容 API 端點。實測中,Q4KP 版輸出速度約 25 token/s,切換至穩定量化版後速度提升至 80–95 token/s,達到流暢對話的體驗門檻。

功能驗證環節涵蓋四個方向:程式碼生成方面,模型一次生成了含 UI 介面、音效、闖關與 BOSS 機制的飛機大戰遊戲,可直接運行;多模態方面,模型從三個 YouTube 封面中選出圖三為點擊率最高,事後比對 YouTube 後台真人數萬次點擊數據,圖三以 36.6% 點擊率奪冠,印證其視覺判斷準確;越獄內容方面,成人小說、成人圖像提示詞、政治話題等均可輸出,官方版全數拒答;Agent 方面,透過 Hermes 對接後,模型能主動爬取最新 AI 熱門新聞,實現聯網自動化任務。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕