AI一键接管电脑?阿里Mobile Agent实战教程:从0到1实现电脑自动操作(含性能优化)| Hex-电脑课堂
三句話摘要
在 Windows 本地端部署 Mobile Agent 3.5,以 4B 小模型驅動 AI 自動操控桌面,完成跨應用程式的電腦端自動化工作流。 16GB 顯存搭配 4B 本地模型已能跑通桌面自動化工作流,但算力與模型規模直接決定精準度——想省掉 AI 自我糾錯的彎路,換更大的模型是最直接的解法。 客戶端必須在 Windows 本機執行,而非 WSL2 內。 若客戶端跑在 WSL2 中,截圖範圍僅限 Linux 環境,AI 無法感知 Windows 桌面狀態,整個控制迴路就會失效。
重點整理
重點- 1
客戶端必須在 Windows 本機執行,而非 WSL2 內。 若客戶端跑在 WSL2 中,截圖範圍僅限 Linux 環境,AI 無法感知 Windows 桌面狀態,整個控制迴路就會失效。
- 2
電腦端截圖比手機端大,直接拖慢執行速度。 模型每次需處理解析度更高的圖片,因此建議將源碼中 `time.sleep` 從預設 2 秒降至 0.1 秒,同時啟動服務端時需將最大上下文長度設定較大值。
- 3
修改三處源碼是讓系統跑順的前提。 包含刪除 `for_pc.py` 第 245 行附近的冗餘代碼段、調整截圖間隔、以及視需求修改 `utils.py` 第 587 行的 `history_n`(上下文保留輪數)。
- 4
4B 模型有智能局限,但內建糾錯機制兜底。 演示中 AI 命名文件時多打了一次 "note",系統自行偵測到名稱錯誤後全選重打,最終仍成功完成任務,只是路徑曲折。
實用技巧與重點
乾貨- 顯存需求:16GB 顯存 → 最高 4B 模型;顯存佔用約 15.5GB
- 可選模型規格:4B / 8B / 32B(參數越大越智能)
- WSL2 版本:Ubuntu 24.04
- 服務端監聽地址:`0.0.0.0:8000`
- 源碼修改點 1:`for_pc.py` 第 245 行,刪除多餘代碼段,僅保留三行
- 源碼修改點 2:`for_pc.py` 第 283 行,`time.sleep` 從 `2` 改為 `0.1`
- 源碼修改點 3:`utils.py` 第 587 行,`history_n` 預設值為 `4`,可依效果調高或調低
- 服務端啟動參數:`--trust-remote-code`、`--max-model-len [較大值]`、`--gpu-memory-utilization [比例]`
- 客戶端 API key:本地部署可填任意字串
- 客戶端 base URL 格式:`http://[WSL2服務端地址]:8000/v1`
- 截圖暫存資料夾:`ANNO`,任務執行中自動生成,大型任務可達數百 MB,用後建議手動清理
- 演示任務拆解結果:「開資料夾→新建 note.txt→輸入內容→保存→關閉」被 AI 拆解為 13 步完成
- 虛擬環境名稱:`mobile_agent`(Windows 端需重新建立相同環境並安裝依賴)
結論
結論“16GB 顯存搭配 4B 本地模型已能跑通桌面自動化工作流,但算力與模型規模直接決定精準度——想省掉 AI 自我糾錯的彎路,換更大的模型是最直接的解法。”
完整解析
詳細本期影片承接上一期手機端 Mobile Agent 的示範,轉而聚焦於如何在 Windows 電腦上部署阿里巴巴通義實驗室的 Mobile Agent 3.5,讓 AI 透過視覺截圖與指令推理自動操控桌面。開場先播放官方展示案例——AI 在 WPS 新建文件、撰寫阿里巴巴簡介,再切換至 Edge 瀏覽器搜尋 Logo 圖片後貼回文件末尾,呈現了這套系統跨應用程式協作的潛力,為後續的本地部署演示定下基調。
部署架構分為服務端與客戶端兩層。服務端在 WSL2(Ubuntu 24.04)中運行,需依序安裝 Miniconda、建立虛擬環境、下載本地模型,並安裝電腦端專用依賴。由於講者顯卡僅有 16GB 顯存,只能載入 4B 參數模型,啟動後顯存佔用爬升至約 15.5GB。啟動命令需明確指定本地模型路徑、開啟 `trust-remote-code`,並將最大上下文長度設大——原因是電腦截圖解析度遠高於手機,每張圖消耗的 token 更多。服務端輸出 "start up complete" 即代表成功就緒,對外監聽 `0.0.0.0:8000`。
客戶端的部署位置是這套架構的核心限制:它必須在 Windows 本機的 CMD 中執行,而非 WSL2 的終端機。道理很直接——若客戶端在 WSL2 內截圖,捕捉到的是 Linux 環境畫面,AI 看不見 Windows 桌面,整個「看圖→決策→操作」的迴路便會斷裂。因此需將 `computer_use` 資料夾複製至 Windows 本機,在該目錄開啟 CMD,激活同名 conda 環境後執行客戶端腳本。指令中 API key 可填任意字串(本地部署不做驗證),base URL 指向 WSL2 服務端,最後以自然語言附上任務指令即可啟動。
實際演示任務為:開啟桌面指定資料夾、新建名為 `note.txt` 的文字檔、輸入「這是第一個測試文件」後保存並關閉視窗。AI 將此拆解為 13 步逐一執行——右鍵選單、選子選項、命名、雙擊開啟、輸入內容、保存、退出,每一步都是獨立決策。過程中 4B 模型的局限確實顯現:命名時多打了一次 "note",但系統偵測到文件名與預期不符後,自動全選並重新輸入正確名稱,任務最終以「成功」狀態結束。執行期間所有截圖會累積在 `ANNO` 資料夾,大型任務可輕易達數百 MB,建議定期清理。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


