KeyFrame

AI一键接管电脑?阿里Mobile Agent实战教程:从0到1实现电脑自动操作(含性能优化)| Hex-电脑课堂

Hex-电脑课堂·4月6日週一·18 min中文

三句話摘要

在 Windows 本地端部署 Mobile Agent 3.5,以 4B 小模型驅動 AI 自動操控桌面,完成跨應用程式的電腦端自動化工作流。 16GB 顯存搭配 4B 本地模型已能跑通桌面自動化工作流,但算力與模型規模直接決定精準度——想省掉 AI 自我糾錯的彎路,換更大的模型是最直接的解法。 客戶端必須在 Windows 本機執行,而非 WSL2 內。 若客戶端跑在 WSL2 中,截圖範圍僅限 Linux 環境,AI 無法感知 Windows 桌面狀態,整個控制迴路就會失效。

重點整理

重點
  • 1

    客戶端必須在 Windows 本機執行,而非 WSL2 內。 若客戶端跑在 WSL2 中,截圖範圍僅限 Linux 環境,AI 無法感知 Windows 桌面狀態,整個控制迴路就會失效。

  • 2

    電腦端截圖比手機端大,直接拖慢執行速度。 模型每次需處理解析度更高的圖片,因此建議將源碼中 `time.sleep` 從預設 2 秒降至 0.1 秒,同時啟動服務端時需將最大上下文長度設定較大值。

  • 3

    修改三處源碼是讓系統跑順的前提。 包含刪除 `for_pc.py` 第 245 行附近的冗餘代碼段、調整截圖間隔、以及視需求修改 `utils.py` 第 587 行的 `history_n`(上下文保留輪數)。

  • 4

    4B 模型有智能局限,但內建糾錯機制兜底。 演示中 AI 命名文件時多打了一次 "note",系統自行偵測到名稱錯誤後全選重打,最終仍成功完成任務,只是路徑曲折。

實用技巧與重點

乾貨
  • 顯存需求:16GB 顯存 → 最高 4B 模型;顯存佔用約 15.5GB
  • 可選模型規格:4B / 8B / 32B(參數越大越智能)
  • WSL2 版本:Ubuntu 24.04
  • 服務端監聽地址:`0.0.0.0:8000`
  • 源碼修改點 1:`for_pc.py` 第 245 行,刪除多餘代碼段,僅保留三行
  • 源碼修改點 2:`for_pc.py` 第 283 行,`time.sleep` 從 `2` 改為 `0.1`
  • 源碼修改點 3:`utils.py` 第 587 行,`history_n` 預設值為 `4`,可依效果調高或調低
  • 服務端啟動參數:`--trust-remote-code`、`--max-model-len [較大值]`、`--gpu-memory-utilization [比例]`
  • 客戶端 API key:本地部署可填任意字串
  • 客戶端 base URL 格式:`http://[WSL2服務端地址]:8000/v1`
  • 截圖暫存資料夾:`ANNO`,任務執行中自動生成,大型任務可達數百 MB,用後建議手動清理
  • 演示任務拆解結果:「開資料夾→新建 note.txt→輸入內容→保存→關閉」被 AI 拆解為 13 步完成
  • 虛擬環境名稱:`mobile_agent`(Windows 端需重新建立相同環境並安裝依賴)

結論

結論

16GB 顯存搭配 4B 本地模型已能跑通桌面自動化工作流,但算力與模型規模直接決定精準度——想省掉 AI 自我糾錯的彎路,換更大的模型是最直接的解法。

完整解析

詳細

本期影片承接上一期手機端 Mobile Agent 的示範,轉而聚焦於如何在 Windows 電腦上部署阿里巴巴通義實驗室的 Mobile Agent 3.5,讓 AI 透過視覺截圖與指令推理自動操控桌面。開場先播放官方展示案例——AI 在 WPS 新建文件、撰寫阿里巴巴簡介,再切換至 Edge 瀏覽器搜尋 Logo 圖片後貼回文件末尾,呈現了這套系統跨應用程式協作的潛力,為後續的本地部署演示定下基調。

部署架構分為服務端與客戶端兩層。服務端在 WSL2(Ubuntu 24.04)中運行,需依序安裝 Miniconda、建立虛擬環境、下載本地模型,並安裝電腦端專用依賴。由於講者顯卡僅有 16GB 顯存,只能載入 4B 參數模型,啟動後顯存佔用爬升至約 15.5GB。啟動命令需明確指定本地模型路徑、開啟 `trust-remote-code`,並將最大上下文長度設大——原因是電腦截圖解析度遠高於手機,每張圖消耗的 token 更多。服務端輸出 "start up complete" 即代表成功就緒,對外監聽 `0.0.0.0:8000`。

客戶端的部署位置是這套架構的核心限制:它必須在 Windows 本機的 CMD 中執行,而非 WSL2 的終端機。道理很直接——若客戶端在 WSL2 內截圖,捕捉到的是 Linux 環境畫面,AI 看不見 Windows 桌面,整個「看圖→決策→操作」的迴路便會斷裂。因此需將 `computer_use` 資料夾複製至 Windows 本機,在該目錄開啟 CMD,激活同名 conda 環境後執行客戶端腳本。指令中 API key 可填任意字串(本地部署不做驗證),base URL 指向 WSL2 服務端,最後以自然語言附上任務指令即可啟動。

實際演示任務為:開啟桌面指定資料夾、新建名為 `note.txt` 的文字檔、輸入「這是第一個測試文件」後保存並關閉視窗。AI 將此拆解為 13 步逐一執行——右鍵選單、選子選項、命名、雙擊開啟、輸入內容、保存、退出,每一步都是獨立決策。過程中 4B 模型的局限確實顯現:命名時多打了一次 "note",但系統偵測到文件名與預期不符後,自動全選並重新輸入正確名稱,任務最終以「成功」狀態結束。執行期間所有截圖會累積在 `ANNO` 資料夾,大型任務可輕易達數百 MB,建議定期清理。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕