Anti gravity EP08:Agent代理 複製你的聲音_別再付費買 AI 語音了!一行指令免費複製你的聲音
三句話摘要
透過開源模型 VoxCPM2,免費在本地端複製你的聲音並整合進 AI Agent 工作流。 VoxCPM2 讓高品質聲音複製徹底免費化,只需將 GitHub repo 交給 Agent 安裝,即可在本地端用自然語言驅動 TTS,並打包成全域技能整合進所有 AI 工作流。 高級 TTS 從付費走向免費開源。VoxCPM2 昨日開源釋出,支援商用,效果媲美 OpenAI TTS,讓使用者不需 API Key、不花一毛錢即可在本地端生成高品質語音。
重點整理
重點- 1
高級 TTS 從付費走向免費開源。VoxCPM2 昨日開源釋出,支援商用,效果媲美 OpenAI TTS,讓使用者不需 API Key、不花一毛錢即可在本地端生成高品質語音。
- 2
硬體門檻低,文書筆電也能跑。模型支援 CPU 模式與 NVIDIA/Intel Arc GPU 加速,講者用文書筆電測試雖然較慢但可正常生成;有 RTX 4080 顯卡則速度顯著提升。
- 3
以自然語言取代 UI 操作,整合進 Agent 技能。整個流程不需要使用任何圖形介面,只需在 Agent 對話中用自然語言下指令,並可將聲音打包成「全域 Skill」,讓所有專案都能直接呼叫。
- 4
可創造全新聲音、多角色對話、多語言輸出。除了複製真人聲音,還能憑描述生成全新音色,支援多角色腳本合成,並支援多語系(含閩南語,但建議搭配台羅文字輸入效果更佳)。
實用技巧與重點
乾貨- 模型名稱:VoxCPM2(Voice Cloner,開源免費可商用)
- GitHub repo 已由講者整理完畢,放於影片說明欄
- 支援平台:Windows + NVIDIA GPU(CUDA 12)、Intel Arc 顯卡、純 CPU 模式
- 示範顯卡:RTX 4080
- 支援 Agent 工具:AntiGravity、Claude Code、OpenCode(Codex 未測試成功)
- 安裝前提:需使用「付費 Agent」且用量充足
- 使用模式:兩種 TTS 品質模式,High Quality 模式需錄製較多語音素材
- 多語言支援:多語系,閩南語需用台羅文字輸入效果較佳
- 應用示範 1:數學解題教學影片,搭配 HyperFrame 自動加字幕,全 AI 製作
- 應用示範 2:生成全新角色「小克」(黑貓音色),與複製聲音「三師爸」進行雙人對話腳本合成
- Token 消耗:語音合成跑在本地端,幾乎不耗費 Agent Token
- 多 Agent 協作技巧:用 Subagent 平行處理多段語音合成,加速輸出;跨 Agent 交接使用 `handoff.md` + `CLAUDE.md` 檔案
- 推薦多模態模型搭配:Claude Opus 4.7/4.8、GPT-5.5、Gemini 3.5(用於讀取簡報內容生成旁白)
結論
結論“VoxCPM2 讓高品質聲音複製徹底免費化,只需將 GitHub repo 交給 Agent 安裝,即可在本地端用自然語言驅動 TTS,並打包成全域技能整合進所有 AI 工作流。”
完整解析
詳細在 VoxCPM2 開源釋出前,使用高品質 TTS 幾乎都需要付費——無論是串接 OpenAI TTS API,還是使用 ElevenLabs 等商業平台。市面上免費的語音合成工具(如 Agent TTS)品質普遍不佳,難以用於正式的教學或商業內容。昨日 VoxCPM2 的開源釋出打破了這個局面,講者在直播中即時示範從零安裝到實際生成的完整流程。
安裝方式極為簡化:講者已將 GitHub repo 整理完畢,使用者只需將網址貼給 Agent,讓 Agent 全自動完成安裝即可。整個流程在 AntiGravity 中操作,新建專案資料夾後,開啟 Turbo Mode 並設定 Terminal 允許 NPM 與 Python 指令,再由 Agent 自動偵測顯卡(RTX 4080)並下載對應 CUDA 12 版本的 PyTorch。首次安裝需下載模型,時間較長,但後續使用則快許多。錄製聲音的部分,講者透過瀏覽器介面錄下一段示範語音並命名為「三師爸」,Agent 即完成聲音特徵的學習與儲存。
功能層面,VoxCPM2 有兩大核心能力。第一是 Ultimate Cloning(極致克隆),只需錄製少量語音片段即可複製說話者的語氣與節奏;第二是任意聲音創造,使用者可透過自然語言描述(如「可愛黑貓、細柔聲線」)讓模型生成一個從未存在過的全新音色。講者現場示範了將此 TTS 整合進數學教學影片的完整流程:提供 PPT 簡報,由多模態模型讀取並生成解題旁白腳本,再以複製的聲音配音,搭配 HyperFrame 自動加上字幕,全程無需人工動手。另外,雙角色對話(三師爸與小克)的示範則展示了 Subagent 平行合成的能力,兩個聲音各由一個子 Agent 同時生成,最後合併為完整對話音檔。
在工作流整合上,講者強調應將聲音能力打包為「全域 Skill」,讓使用者在任何專案中只需提到「用三師爸的聲音」,Agent 即自動呼叫本地 TTS 功能,完全繞過 API 計費。由於語音合成跑在本地硬體上,幾乎不消耗 Agent Token,成本極低。講者也提醒,此工具同樣具備複製他人聲音的能力,在道德與法律上應避免未經對方同意複製他人聲音,並建議將此工具作為 AI 素養課程的教材,讓學生了解 AI 聲音詐騙的可能性。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


