全网最细！0成本的 AI Agent！Hermes + Qwen3+ 本地无限 Token 组合，本地 Agent 全流程实战！附完整部署教程 | Hex-电脑课堂

Hex-电脑课堂·5月7日週四·31 min中文

三句話摘要

手把手在 Windows WSL2 本地部署 Hermes Agent，搭配 llama.cpp + Qwen 3.5 9B 量化模型，實現可透過 Telegram 遠端操控的個人 AI 工作流代理。 --- 16GB 顯存 + llama.cpp + Qwen 3.5 9B Q8 已能支撐 Hermes Agent 完成網頁查詢、數值計算、多任務並行與文件讀寫等日常工作流，本地部署的核心門檻是關閉推理模式、設定 64K context、以及正確配置 WSL2 鏡像網路。 1. 量化模型是本地部署的關鍵選型

重點整理

重點

1
1. 量化模型是本地部署的關鍵選型
2
GGUF 格式與 llama.cpp 高度綁定，Q8 量化在保有精度的同時能塞進 16GB 顯存；模型選 Qwen 3.5 9B 而非更大規格，是在速度（20 token/s）與品質之間取得平衡的結果。
3
2. 推理模式（Thinking/CoT）必須關閉
4
Hermes Agent 作為 Agent 框架呼叫模型時，不需要思維鏈輸出；若保留推理模式，回覆會包含中間思考步驟，干擾 Agent 解析，因此啟動指令必須加入關閉推理的參數。
5
3. 上下文長度是 Hermes Agent 的硬性門檻
6
Hermes Agent 最低要求 64K context，這直接影響啟動 llama.cpp 時的 `--ctx-size` 設定；顯存越小就越難同時跑大 context，需在顯存容量與可用上下文之間手動調參。
7
4. WSL2 網路鏡像模式是部署避坑關鍵
8
新手最常踩的坑是虛擬機無法訪問宿主機網路；在 WSL2 設定中加入 `networkingMode=mirrored`，讓宿主機與 Linux 子系統共用同一網路，可根本解決代理與本地服務互通問題。
9
--

實用技巧與重點

乾貨

硬體需求
OS：Windows 10/11 + Ubuntu 24.04（WSL2）
GPU：NVIDIA，顯存最低 16GB（示範機：RTX 4060 Ti 16GB）
記憶體：最低 32GB（示範機 64GB）
軟體與工具
WSL2（Windows Subsystem for Linux 2）
MiniConda，Python 版本指定 3.11
llama.cpp（預編譯包，從 GitHub Releases 下載，需對應 CUDA 版本）
CUDA 版本：驅動 576.80，NVCC 12.4
Hugging Face CLI（`huggingface-hub` 套件）
國內映象：清華源（apt）、ModelScope（模型下載）、HF 映象端點
模型資訊
模型：Qwen 3.5 9B，GGUF Q8 量化（`q8_0`）
推理速度：約 20 token/s（RTX 4060 Ti 16GB）
視覺附加模型（mmproj）可選，用於截圖元素解析，但會佔用更多顯存
llama.cpp 啟動關鍵參數
`--ctx-size 64000`（Hermes Agent 最低要求）
`--n-gpu-layers 99`（全部層載入 GPU）
`--flash-attn`（推理加速）
關閉推理模式參數（`reasoning_effort = none` 類似設定）
埠號：8080
Hermes Agent 設定流程
安裝指令來自官方 GitHub 一行命令
設定時選「自訂端點（Custom Endpoint）」
API 端點格式：`http://<WSL2_IP>:8080/v1`
API Key 本地模型可隨意填寫（如 `test`）
整合 Telegram Bot：透過 @BotFather 取得 Token，透過 @userinfobot 取得用戶 ID
實測任務結果
查詢 NVIDIA 股價 + 建立 txt 檔：耗時 4.9 秒
買 215 股計算：198.48 × 215 = 42,673.2 美元（計算正確）
同時開啟 3 個瀏覽器視窗抓取 3 家公司 10 日收盤價，整理成 Markdown 表格並分析
WSL2 避坑設定
`networkingMode=mirrored`（寫入 `.wslconfig`）
--

結論

“16GB 顯存 + llama.cpp + Qwen 3.5 9B Q8 已能支撐 Hermes Agent 完成網頁查詢、數值計算、多任務並行與文件讀寫等日常工作流，本地部署的核心門檻是關閉推理模式、設定 64K context、以及正確配置 WSL2 鏡像網路。”

完整解析

詳細

這支影片的核心任務是：在 Windows 本地透過 WSL2 跑一套完整的 AI Agent，從底層的 GPU 推理引擎到上層的任務代理框架，全程離線、不依賴任何商用 API。講者的出發點是，對於日常的輕量工作流（資料查詢、文件整理、簡單計算、資訊摘要），本地小模型的效果已經足夠，不必每次都付費呼叫 GPT 或 Claude。

環境準備分兩條線並行。一條是 Linux 子系統這側：安裝 WSL2 後切換 apt 為清華源加速下載，建立 Python 3.11 的 Conda 虛擬環境，並下載對應 CUDA 版本（12.4）的 llama.cpp 預編譯包。講者特別強調要下載兩個配套的 zip 檔並解壓至同一目錄，跳過從原始碼手動編譯的繁瑣步驟。另一條是模型這側：使用 HF CLI 搭配 ModelScope 映象，下載 Qwen 3.5 9B Q8 的 GGUF 量化模型，Q8 量化的選擇是在精度與 16GB 顯存容量之間取得的折中。啟動 llama.cpp server 時，最關鍵的非顯而易見參數是關閉「推理模式」——因為 Qwen 3.5 系列預設啟用 CoT 思維鏈，在 Agent 框架下這會導致輸出格式混亂，必須明確強制關閉。上下文設為 64K 是 Hermes Agent 的硬性下限。啟動後瀏覽器打開 8080 埠，確認模型正常回應，這一步驟是後續一切的基礎。

Hermes Agent 的安裝本身只需一行官方命令，難度在配置階段。選擇「自訂端點」後填入 WSL2 的 IP + 8080 埠，API Key 可隨意填寫。接著整合 Telegram 作為遙控介面：向 @BotFather 申請機器人 Token，再透過 @userinfobot 取得個人用戶 ID，兩組資訊填入設定後重啟服務，Telegram 頻道就成為命令入口。值得一提的是網路這塊：WSL2 預設的虛擬網路會讓子系統難以訪問宿主機服務，在 `.wslconfig` 加入 `networkingMode=mirrored` 後，兩端共用同一網路棧，代理轉發與本地服務互通問題同步消除。

實測環節分三個梯度驗證能力邊界。第一個任務是查 NVIDIA 股價並存成 txt，4.9 秒內完成，文件正確建立於指定路徑。第二個任務加入了數值計算與文學創作——查股價、算 215 股的總市值、用計算結果寫一首打油詩，三步驟串接完成，計算結果（42,673.2 美元）與手算吻合。第三個任務是難度最高的：讓 Agent 同時開啟三個瀏覽器視窗，分別抓取特斯拉、NVIDIA 等三家公司最近 10 日收盤價，整理成 Markdown 表格，附帶趨勢分析與風險提示，最終存檔。這個任務中 Agent 自動降級使用截圖+圖像解析來應對反爬措施，顯示出底層的容錯智慧。整個過程中 GPU 顯存與利用率均接近飽和，32GB 系統記憶體也幾乎全滿，印證了講者一開始對最低配置的判斷。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

全网最细！0成本的 AI Agent！Hermes + Qwen3+ 本地无限 Token 组合，本地 Agent 全流程实战！附完整部署教程 | Hex-电脑课堂

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備