AI一键接管电脑？阿里Mobile Agent实战教程：从0到1实现电脑自动操作（含性能优化）| Hex-电脑课堂

Hex-电脑课堂·4月6日週一·18 min中文

三句話摘要

在 Windows 本地端部署 Mobile Agent 3.5，以 4B 小模型驅動 AI 自動操控桌面，完成跨應用程式的電腦端自動化工作流。 16GB 顯存搭配 4B 本地模型已能跑通桌面自動化工作流，但算力與模型規模直接決定精準度——想省掉 AI 自我糾錯的彎路，換更大的模型是最直接的解法。 客戶端必須在 Windows 本機執行，而非 WSL2 內。 若客戶端跑在 WSL2 中，截圖範圍僅限 Linux 環境，AI 無法感知 Windows 桌面狀態，整個控制迴路就會失效。

重點整理

重點

1
客戶端必須在 Windows 本機執行，而非 WSL2 內。 若客戶端跑在 WSL2 中，截圖範圍僅限 Linux 環境，AI 無法感知 Windows 桌面狀態，整個控制迴路就會失效。
2
電腦端截圖比手機端大，直接拖慢執行速度。 模型每次需處理解析度更高的圖片，因此建議將源碼中 `time.sleep` 從預設 2 秒降至 0.1 秒，同時啟動服務端時需將最大上下文長度設定較大值。
3
修改三處源碼是讓系統跑順的前提。 包含刪除 `for_pc.py` 第 245 行附近的冗餘代碼段、調整截圖間隔、以及視需求修改 `utils.py` 第 587 行的 `history_n`（上下文保留輪數）。
4
4B 模型有智能局限，但內建糾錯機制兜底。 演示中 AI 命名文件時多打了一次 "note"，系統自行偵測到名稱錯誤後全選重打，最終仍成功完成任務，只是路徑曲折。

實用技巧與重點

乾貨

顯存需求：16GB 顯存 → 最高 4B 模型；顯存佔用約 15.5GB
可選模型規格：4B / 8B / 32B（參數越大越智能）
WSL2 版本：Ubuntu 24.04
服務端監聽地址：`0.0.0.0:8000`
源碼修改點 1：`for_pc.py` 第 245 行，刪除多餘代碼段，僅保留三行
源碼修改點 2：`for_pc.py` 第 283 行，`time.sleep` 從 `2` 改為 `0.1`
源碼修改點 3：`utils.py` 第 587 行，`history_n` 預設值為 `4`，可依效果調高或調低
服務端啟動參數：`--trust-remote-code`、`--max-model-len [較大值]`、`--gpu-memory-utilization [比例]`
客戶端 API key：本地部署可填任意字串
客戶端 base URL 格式：`http://[WSL2服務端地址]:8000/v1`
截圖暫存資料夾：`ANNO`，任務執行中自動生成，大型任務可達數百 MB，用後建議手動清理
演示任務拆解結果：「開資料夾→新建 note.txt→輸入內容→保存→關閉」被 AI 拆解為 13 步完成
虛擬環境名稱：`mobile_agent`（Windows 端需重新建立相同環境並安裝依賴）

結論

“16GB 顯存搭配 4B 本地模型已能跑通桌面自動化工作流，但算力與模型規模直接決定精準度——想省掉 AI 自我糾錯的彎路，換更大的模型是最直接的解法。”

完整解析

詳細

本期影片承接上一期手機端 Mobile Agent 的示範，轉而聚焦於如何在 Windows 電腦上部署阿里巴巴通義實驗室的 Mobile Agent 3.5，讓 AI 透過視覺截圖與指令推理自動操控桌面。開場先播放官方展示案例——AI 在 WPS 新建文件、撰寫阿里巴巴簡介，再切換至 Edge 瀏覽器搜尋 Logo 圖片後貼回文件末尾，呈現了這套系統跨應用程式協作的潛力，為後續的本地部署演示定下基調。

部署架構分為服務端與客戶端兩層。服務端在 WSL2（Ubuntu 24.04）中運行，需依序安裝 Miniconda、建立虛擬環境、下載本地模型，並安裝電腦端專用依賴。由於講者顯卡僅有 16GB 顯存，只能載入 4B 參數模型，啟動後顯存佔用爬升至約 15.5GB。啟動命令需明確指定本地模型路徑、開啟 `trust-remote-code`，並將最大上下文長度設大——原因是電腦截圖解析度遠高於手機，每張圖消耗的 token 更多。服務端輸出 "start up complete" 即代表成功就緒，對外監聽 `0.0.0.0:8000`。

客戶端的部署位置是這套架構的核心限制：它必須在 Windows 本機的 CMD 中執行，而非 WSL2 的終端機。道理很直接——若客戶端在 WSL2 內截圖，捕捉到的是 Linux 環境畫面，AI 看不見 Windows 桌面，整個「看圖→決策→操作」的迴路便會斷裂。因此需將 `computer_use` 資料夾複製至 Windows 本機，在該目錄開啟 CMD，激活同名 conda 環境後執行客戶端腳本。指令中 API key 可填任意字串（本地部署不做驗證），base URL 指向 WSL2 服務端，最後以自然語言附上任務指令即可啟動。

實際演示任務為：開啟桌面指定資料夾、新建名為 `note.txt` 的文字檔、輸入「這是第一個測試文件」後保存並關閉視窗。AI 將此拆解為 13 步逐一執行——右鍵選單、選子選項、命名、雙擊開啟、輸入內容、保存、退出，每一步都是獨立決策。過程中 4B 模型的局限確實顯現：命名時多打了一次 "note"，但系統偵測到文件名與預期不符後，自動全選並重新輸入正確名稱，任務最終以「成功」狀態結束。執行期間所有截圖會累積在 `ANNO` 資料夾，大型任務可輕易達數百 MB，建議定期清理。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

AI一键接管电脑？阿里Mobile Agent实战教程：从0到1实现电脑自动操作（含性能优化）| Hex-电脑课堂

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備