零成本无限 Token!Hermes + Qwen3.6,本地最强 Agent 组合来了!附部署教程 | 零度解说
三句話摘要
在 Windows 上透過 WSL 部署 Qwen3 27B 本地模型,並整合 Hermes Agent 實現 Telegram 遠端呼叫與定時任務。 在 Windows 上用 WSL + llama-cpp 部署 Qwen3.6 27B,再以 Hermes Agent 橋接 Telegram,即可打造一套完全免費、資料不出機、可遠端呼叫的本地 AI Agent。 選用 llama-cpp 而非 VLLM 或 DeepSpeed:因為後兩者需要較大顯存,llama-cpp 對顯存要求更低且更穩定,適合消費級顯示卡用戶,避免 OOM 問題。
重點整理
重點- 1
選用 llama-cpp 而非 VLLM 或 DeepSpeed:因為後兩者需要較大顯存,llama-cpp 對顯存要求更低且更穩定,適合消費級顯示卡用戶,避免 OOM 問題。
- 2
模型選擇依顯存決定:24G 顯存可跑 Qwen3.6 27B(約 17G),顯存較小者可選 Qwen3.5 系列(0.8B / 2B / 4B / 9B),只需替換指令中的模型名稱即可。
- 3
關閉深度思考模式以對接 Agent:預設開啟的 thinking mode 會拖慢響應速度,對接 Hermes Agent 時建議關閉,輸出會直接跳過推理步驟,速度顯著提升。
- 4
Hermes + Telegram 實現 AI Agent 遠端化:本地模型透過 Hermes Agent 對接 Telegram Bot 後,可在任何地方呼叫家中電腦執行定時任務,達到真正的本地離線可控 AI Agent。
實用技巧與重點
乾貨- 硬體與模型
- 示範顯卡:NVIDIA 24G 顯存(N 卡)
- 推薦模型:Qwen3.6 27B(檔案大小約 17G)
- 小顯存備選:Qwen3.5 系列(0.8B / 2B / 4B / 9B)
- 推理速度:未優化 39.51 token/秒,優化後預計 50–60 token/秒
- 工具與平台
- 推理框架:llama-cpp(推薦)
- 替代框架:VLLM、DeepSpeed(需大顯存)
- Agent 框架:Hermes Agent(最新版本)
- 聊天整合:Telegram Bot(海外推薦)、Discord、微信、QQ
- 模型下載備用:ModelScope 國內鏡像
- 服務端口:8080,URL 格式為 `http://localhost:8080/v1`
- 安裝流程
- PowerShell(管理員)安裝 WSL Linux 子系統
- 安裝 Ubuntu 24.04,設定用戶名與密碼
- 確認 GPU 直通(`nvidia-smi` 可識別)
- 安裝 Python + pip
- 安裝 CUDA 工具包(約 2G)
- 設定 CUDA 路徑,重新編譯 llama-cpp(約 5 分鐘)
- 下載模型並啟動(`--host 0.0.0.0 --port 8080`)
- 安裝 Hermes Agent,選「自訂模式」填入 Base URL 與隨意填寫的 API Key
- Telegram BotFather 創建 Bot,取得 Token,填入 Hermes
- 建立啟動腳本,設定 WSL 開機自動運行
- API Key:本地模型可填任意字串(如 `12345678`)
結論
結論“在 Windows 上用 WSL + llama-cpp 部署 Qwen3.6 27B,再以 Hermes Agent 橋接 Telegram,即可打造一套完全免費、資料不出機、可遠端呼叫的本地 AI Agent。”
完整解析
詳細現代 AI 服務雖然強大,但月費與 Token 費用持續累積,且資料上傳雲端存在隱私疑慮。影片作者「零度解說」針對這個痛點,推薦以 Hermes Agent 搭配 Qwen3.6 27B 開源模型在本地端部署,主打完全免費、Token 自由、資料不離機,並可透過 Telegram 在任何地方遠端呼叫家中電腦的 AI 能力。
部署環境以 Windows 為基礎,透過 WSL(Windows Subsystem for Linux)安裝 Ubuntu 24.04 子系統,讓 Linux 生態的 AI 工具鏈可以直接在 Windows 上運作。安裝流程依序為:啟用 WSL、安裝 Ubuntu、確認 NVIDIA GPU 已直通至子系統(執行 `nvidia-smi` 驗證)、安裝 Python 與 pip、再安裝 CUDA 工具包(約 2GB)。推理框架選用 llama-cpp 而非 VLLM 或 DeepSpeed,原因是後兩者對顯存需求較高,容易 OOM,而 llama-cpp 更輕量穩定,對消費級顯卡更友善。若 CUDA 路徑未設定正確,需手動設定環境變數後重新編譯,編譯約需 5 分鐘。
模型選擇上,24G 顯存可運行 Qwen3.6 27B(約 17GB),顯存較小者可選 Qwen3.5 系列中的 0.8B、2B、4B 或 9B 版本,只需替換指令中的模型名稱即可。模型透過指令下載,國內用戶可改用 ModelScope 鏡像。啟動後,服務監聽於 `localhost:8080`,瀏覽器開啟即可看到聊天介面。作者在未優化、OBS 錄影同時佔用顯卡資源的情況下,仍達到 39.51 token/秒的速度,預估優化後可達 50–60 token/秒。由於模型預設開啟深度思考模式(thinking mode),對接 Agent 時建議關閉,以提升響應速度。
最後一步是安裝 Hermes Agent 並整合 Telegram。Hermes 設定時選「自訂模式」,填入本地模型的 Base URL(`http://localhost:8080/v1`)與任意 API Key(本地模型無需驗證)。透過 Telegram BotFather 創建 Bot 取得 Token 後填入,Hermes 即可自動識別已安裝的本地模型。完成後建立開機自動啟動腳本,讓整套服務在每次 WSL 開啟時自動運行,無需手動操作。如此一來,使用者可在手機 Telegram 上隨時呼叫家中電腦的 Qwen3.6 27B 執行定時任務、撰寫程式碼或處理中文邏輯推理,真正實現離線、可控、零費用的個人 AI Agent。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


