KeyFrame

零成本无限 Token!Hermes + Qwen3.6,本地最强 Agent 组合来了!附部署教程 | 零度解说

零度解说·5月3日週日·10 min中文

三句話摘要

在 Windows 上透過 WSL 部署 Qwen3 27B 本地模型,並整合 Hermes Agent 實現 Telegram 遠端呼叫與定時任務。 在 Windows 上用 WSL + llama-cpp 部署 Qwen3.6 27B,再以 Hermes Agent 橋接 Telegram,即可打造一套完全免費、資料不出機、可遠端呼叫的本地 AI Agent。 選用 llama-cpp 而非 VLLM 或 DeepSpeed:因為後兩者需要較大顯存,llama-cpp 對顯存要求更低且更穩定,適合消費級顯示卡用戶,避免 OOM 問題。

重點整理

重點
  • 1

    選用 llama-cpp 而非 VLLM 或 DeepSpeed:因為後兩者需要較大顯存,llama-cpp 對顯存要求更低且更穩定,適合消費級顯示卡用戶,避免 OOM 問題。

  • 2

    模型選擇依顯存決定:24G 顯存可跑 Qwen3.6 27B(約 17G),顯存較小者可選 Qwen3.5 系列(0.8B / 2B / 4B / 9B),只需替換指令中的模型名稱即可。

  • 3

    關閉深度思考模式以對接 Agent:預設開啟的 thinking mode 會拖慢響應速度,對接 Hermes Agent 時建議關閉,輸出會直接跳過推理步驟,速度顯著提升。

  • 4

    Hermes + Telegram 實現 AI Agent 遠端化:本地模型透過 Hermes Agent 對接 Telegram Bot 後,可在任何地方呼叫家中電腦執行定時任務,達到真正的本地離線可控 AI Agent。

實用技巧與重點

乾貨
  • 硬體與模型
  • 示範顯卡:NVIDIA 24G 顯存(N 卡)
  • 推薦模型:Qwen3.6 27B(檔案大小約 17G)
  • 小顯存備選:Qwen3.5 系列(0.8B / 2B / 4B / 9B)
  • 推理速度:未優化 39.51 token/秒,優化後預計 50–60 token/秒
  • 工具與平台
  • 推理框架:llama-cpp(推薦)
  • 替代框架:VLLM、DeepSpeed(需大顯存)
  • Agent 框架:Hermes Agent(最新版本)
  • 聊天整合:Telegram Bot(海外推薦)、Discord、微信、QQ
  • 模型下載備用:ModelScope 國內鏡像
  • 服務端口:8080,URL 格式為 `http://localhost:8080/v1`
  • 安裝流程
  • PowerShell(管理員)安裝 WSL Linux 子系統
  • 安裝 Ubuntu 24.04,設定用戶名與密碼
  • 確認 GPU 直通(`nvidia-smi` 可識別)
  • 安裝 Python + pip
  • 安裝 CUDA 工具包(約 2G)
  • 設定 CUDA 路徑,重新編譯 llama-cpp(約 5 分鐘)
  • 下載模型並啟動(`--host 0.0.0.0 --port 8080`)
  • 安裝 Hermes Agent,選「自訂模式」填入 Base URL 與隨意填寫的 API Key
  • Telegram BotFather 創建 Bot,取得 Token,填入 Hermes
  • 建立啟動腳本,設定 WSL 開機自動運行
  • API Key:本地模型可填任意字串(如 `12345678`)

結論

結論

在 Windows 上用 WSL + llama-cpp 部署 Qwen3.6 27B,再以 Hermes Agent 橋接 Telegram,即可打造一套完全免費、資料不出機、可遠端呼叫的本地 AI Agent。

完整解析

詳細

現代 AI 服務雖然強大,但月費與 Token 費用持續累積,且資料上傳雲端存在隱私疑慮。影片作者「零度解說」針對這個痛點,推薦以 Hermes Agent 搭配 Qwen3.6 27B 開源模型在本地端部署,主打完全免費、Token 自由、資料不離機,並可透過 Telegram 在任何地方遠端呼叫家中電腦的 AI 能力。

部署環境以 Windows 為基礎,透過 WSL(Windows Subsystem for Linux)安裝 Ubuntu 24.04 子系統,讓 Linux 生態的 AI 工具鏈可以直接在 Windows 上運作。安裝流程依序為:啟用 WSL、安裝 Ubuntu、確認 NVIDIA GPU 已直通至子系統(執行 `nvidia-smi` 驗證)、安裝 Python 與 pip、再安裝 CUDA 工具包(約 2GB)。推理框架選用 llama-cpp 而非 VLLM 或 DeepSpeed,原因是後兩者對顯存需求較高,容易 OOM,而 llama-cpp 更輕量穩定,對消費級顯卡更友善。若 CUDA 路徑未設定正確,需手動設定環境變數後重新編譯,編譯約需 5 分鐘。

模型選擇上,24G 顯存可運行 Qwen3.6 27B(約 17GB),顯存較小者可選 Qwen3.5 系列中的 0.8B、2B、4B 或 9B 版本,只需替換指令中的模型名稱即可。模型透過指令下載,國內用戶可改用 ModelScope 鏡像。啟動後,服務監聽於 `localhost:8080`,瀏覽器開啟即可看到聊天介面。作者在未優化、OBS 錄影同時佔用顯卡資源的情況下,仍達到 39.51 token/秒的速度,預估優化後可達 50–60 token/秒。由於模型預設開啟深度思考模式(thinking mode),對接 Agent 時建議關閉,以提升響應速度。

最後一步是安裝 Hermes Agent 並整合 Telegram。Hermes 設定時選「自訂模式」,填入本地模型的 Base URL(`http://localhost:8080/v1`)與任意 API Key(本地模型無需驗證)。透過 Telegram BotFather 創建 Bot 取得 Token 後填入,Hermes 即可自動識別已安裝的本地模型。完成後建立開機自動啟動腳本,讓整套服務在每次 WSL 開啟時自動運行,無需手動操作。如此一來,使用者可在手機 Telegram 上隨時呼叫家中電腦的 Qwen3.6 27B 執行定時任務、撰寫程式碼或處理中文邏輯推理,真正實現離線、可控、零費用的個人 AI Agent。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕