Anti gravity EP08：Agent代理複製你的聲音_別再付費買 AI 語音了！一行指令免費複製你的聲音

三師爸Sense Bar·6月19日週五·38 min中文

三句話摘要

透過開源模型 VoxCPM2，免費在本地端複製你的聲音並整合進 AI Agent 工作流。 VoxCPM2 讓高品質聲音複製徹底免費化，只需將 GitHub repo 交給 Agent 安裝，即可在本地端用自然語言驅動 TTS，並打包成全域技能整合進所有 AI 工作流。高級 TTS 從付費走向免費開源。VoxCPM2 昨日開源釋出，支援商用，效果媲美 OpenAI TTS，讓使用者不需 API Key、不花一毛錢即可在本地端生成高品質語音。

重點整理

重點

1
高級 TTS 從付費走向免費開源。VoxCPM2 昨日開源釋出，支援商用，效果媲美 OpenAI TTS，讓使用者不需 API Key、不花一毛錢即可在本地端生成高品質語音。
2
硬體門檻低，文書筆電也能跑。模型支援 CPU 模式與 NVIDIA/Intel Arc GPU 加速，講者用文書筆電測試雖然較慢但可正常生成；有 RTX 4080 顯卡則速度顯著提升。
3
以自然語言取代 UI 操作，整合進 Agent 技能。整個流程不需要使用任何圖形介面，只需在 Agent 對話中用自然語言下指令，並可將聲音打包成「全域 Skill」，讓所有專案都能直接呼叫。
4
可創造全新聲音、多角色對話、多語言輸出。除了複製真人聲音，還能憑描述生成全新音色，支援多角色腳本合成，並支援多語系（含閩南語，但建議搭配台羅文字輸入效果更佳）。

實用技巧與重點

乾貨

模型名稱：VoxCPM2（Voice Cloner，開源免費可商用）
GitHub repo 已由講者整理完畢，放於影片說明欄
支援平台：Windows + NVIDIA GPU（CUDA 12）、Intel Arc 顯卡、純 CPU 模式
示範顯卡：RTX 4080
支援 Agent 工具：AntiGravity、Claude Code、OpenCode（Codex 未測試成功）
安裝前提：需使用「付費 Agent」且用量充足
使用模式：兩種 TTS 品質模式，High Quality 模式需錄製較多語音素材
多語言支援：多語系，閩南語需用台羅文字輸入效果較佳
應用示範 1：數學解題教學影片，搭配 HyperFrame 自動加字幕，全 AI 製作
應用示範 2：生成全新角色「小克」（黑貓音色），與複製聲音「三師爸」進行雙人對話腳本合成
Token 消耗：語音合成跑在本地端，幾乎不耗費 Agent Token
多 Agent 協作技巧：用 Subagent 平行處理多段語音合成，加速輸出；跨 Agent 交接使用 `handoff.md` + `CLAUDE.md` 檔案
推薦多模態模型搭配：Claude Opus 4.7/4.8、GPT-5.5、Gemini 3.5（用於讀取簡報內容生成旁白）

結論

“VoxCPM2 讓高品質聲音複製徹底免費化，只需將 GitHub repo 交給 Agent 安裝，即可在本地端用自然語言驅動 TTS，並打包成全域技能整合進所有 AI 工作流。”

完整解析

詳細

在 VoxCPM2 開源釋出前，使用高品質 TTS 幾乎都需要付費——無論是串接 OpenAI TTS API，還是使用 ElevenLabs 等商業平台。市面上免費的語音合成工具（如 Agent TTS）品質普遍不佳，難以用於正式的教學或商業內容。昨日 VoxCPM2 的開源釋出打破了這個局面，講者在直播中即時示範從零安裝到實際生成的完整流程。

安裝方式極為簡化：講者已將 GitHub repo 整理完畢，使用者只需將網址貼給 Agent，讓 Agent 全自動完成安裝即可。整個流程在 AntiGravity 中操作，新建專案資料夾後，開啟 Turbo Mode 並設定 Terminal 允許 NPM 與 Python 指令，再由 Agent 自動偵測顯卡（RTX 4080）並下載對應 CUDA 12 版本的 PyTorch。首次安裝需下載模型，時間較長，但後續使用則快許多。錄製聲音的部分，講者透過瀏覽器介面錄下一段示範語音並命名為「三師爸」，Agent 即完成聲音特徵的學習與儲存。

功能層面，VoxCPM2 有兩大核心能力。第一是 Ultimate Cloning（極致克隆），只需錄製少量語音片段即可複製說話者的語氣與節奏；第二是任意聲音創造，使用者可透過自然語言描述（如「可愛黑貓、細柔聲線」）讓模型生成一個從未存在過的全新音色。講者現場示範了將此 TTS 整合進數學教學影片的完整流程：提供 PPT 簡報，由多模態模型讀取並生成解題旁白腳本，再以複製的聲音配音，搭配 HyperFrame 自動加上字幕，全程無需人工動手。另外，雙角色對話（三師爸與小克）的示範則展示了 Subagent 平行合成的能力，兩個聲音各由一個子 Agent 同時生成，最後合併為完整對話音檔。

在工作流整合上，講者強調應將聲音能力打包為「全域 Skill」，讓使用者在任何專案中只需提到「用三師爸的聲音」，Agent 即自動呼叫本地 TTS 功能，完全繞過 API 計費。由於語音合成跑在本地硬體上，幾乎不消耗 Agent Token，成本極低。講者也提醒，此工具同樣具備複製他人聲音的能力，在道德與法律上應避免未經對方同意複製他人聲音，並建議將此工具作為 AI 素養課程的教材，讓學生了解 AI 聲音詐騙的可能性。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Anti gravity EP08：Agent代理複製你的聲音_別再付費買 AI 語音了！一行指令免費複製你的聲音

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備