KeyFrame
AI 技術編輯精選

Anti gravity EP08:Agent代理 複製你的聲音_別再付費買 AI 語音了!一行指令免費複製你的聲音

三師爸Sense Bar·6月19日週五·38 min中文

三句話摘要

透過開源模型 VoxCPM2,免費在本地端複製你的聲音並整合進 AI Agent 工作流。 VoxCPM2 讓高品質聲音複製徹底免費化,只需將 GitHub repo 交給 Agent 安裝,即可在本地端用自然語言驅動 TTS,並打包成全域技能整合進所有 AI 工作流。 高級 TTS 從付費走向免費開源。VoxCPM2 昨日開源釋出,支援商用,效果媲美 OpenAI TTS,讓使用者不需 API Key、不花一毛錢即可在本地端生成高品質語音。

重點整理

重點
  • 1

    高級 TTS 從付費走向免費開源。VoxCPM2 昨日開源釋出,支援商用,效果媲美 OpenAI TTS,讓使用者不需 API Key、不花一毛錢即可在本地端生成高品質語音。

  • 2

    硬體門檻低,文書筆電也能跑。模型支援 CPU 模式與 NVIDIA/Intel Arc GPU 加速,講者用文書筆電測試雖然較慢但可正常生成;有 RTX 4080 顯卡則速度顯著提升。

  • 3

    以自然語言取代 UI 操作,整合進 Agent 技能。整個流程不需要使用任何圖形介面,只需在 Agent 對話中用自然語言下指令,並可將聲音打包成「全域 Skill」,讓所有專案都能直接呼叫。

  • 4

    可創造全新聲音、多角色對話、多語言輸出。除了複製真人聲音,還能憑描述生成全新音色,支援多角色腳本合成,並支援多語系(含閩南語,但建議搭配台羅文字輸入效果更佳)。

實用技巧與重點

乾貨
  • 模型名稱:VoxCPM2(Voice Cloner,開源免費可商用)
  • GitHub repo 已由講者整理完畢,放於影片說明欄
  • 支援平台:Windows + NVIDIA GPU(CUDA 12)、Intel Arc 顯卡、純 CPU 模式
  • 示範顯卡:RTX 4080
  • 支援 Agent 工具:AntiGravity、Claude Code、OpenCode(Codex 未測試成功)
  • 安裝前提:需使用「付費 Agent」且用量充足
  • 使用模式:兩種 TTS 品質模式,High Quality 模式需錄製較多語音素材
  • 多語言支援:多語系,閩南語需用台羅文字輸入效果較佳
  • 應用示範 1:數學解題教學影片,搭配 HyperFrame 自動加字幕,全 AI 製作
  • 應用示範 2:生成全新角色「小克」(黑貓音色),與複製聲音「三師爸」進行雙人對話腳本合成
  • Token 消耗:語音合成跑在本地端,幾乎不耗費 Agent Token
  • 多 Agent 協作技巧:用 Subagent 平行處理多段語音合成,加速輸出;跨 Agent 交接使用 `handoff.md` + `CLAUDE.md` 檔案
  • 推薦多模態模型搭配:Claude Opus 4.7/4.8、GPT-5.5、Gemini 3.5(用於讀取簡報內容生成旁白)

結論

結論

VoxCPM2 讓高品質聲音複製徹底免費化,只需將 GitHub repo 交給 Agent 安裝,即可在本地端用自然語言驅動 TTS,並打包成全域技能整合進所有 AI 工作流。

完整解析

詳細

在 VoxCPM2 開源釋出前,使用高品質 TTS 幾乎都需要付費——無論是串接 OpenAI TTS API,還是使用 ElevenLabs 等商業平台。市面上免費的語音合成工具(如 Agent TTS)品質普遍不佳,難以用於正式的教學或商業內容。昨日 VoxCPM2 的開源釋出打破了這個局面,講者在直播中即時示範從零安裝到實際生成的完整流程。

安裝方式極為簡化:講者已將 GitHub repo 整理完畢,使用者只需將網址貼給 Agent,讓 Agent 全自動完成安裝即可。整個流程在 AntiGravity 中操作,新建專案資料夾後,開啟 Turbo Mode 並設定 Terminal 允許 NPM 與 Python 指令,再由 Agent 自動偵測顯卡(RTX 4080)並下載對應 CUDA 12 版本的 PyTorch。首次安裝需下載模型,時間較長,但後續使用則快許多。錄製聲音的部分,講者透過瀏覽器介面錄下一段示範語音並命名為「三師爸」,Agent 即完成聲音特徵的學習與儲存。

功能層面,VoxCPM2 有兩大核心能力。第一是 Ultimate Cloning(極致克隆),只需錄製少量語音片段即可複製說話者的語氣與節奏;第二是任意聲音創造,使用者可透過自然語言描述(如「可愛黑貓、細柔聲線」)讓模型生成一個從未存在過的全新音色。講者現場示範了將此 TTS 整合進數學教學影片的完整流程:提供 PPT 簡報,由多模態模型讀取並生成解題旁白腳本,再以複製的聲音配音,搭配 HyperFrame 自動加上字幕,全程無需人工動手。另外,雙角色對話(三師爸與小克)的示範則展示了 Subagent 平行合成的能力,兩個聲音各由一個子 Agent 同時生成,最後合併為完整對話音檔。

在工作流整合上,講者強調應將聲音能力打包為「全域 Skill」,讓使用者在任何專案中只需提到「用三師爸的聲音」,Agent 即自動呼叫本地 TTS 功能,完全繞過 API 計費。由於語音合成跑在本地硬體上,幾乎不消耗 Agent Token,成本極低。講者也提醒,此工具同樣具備複製他人聲音的能力,在道德與法律上應避免未經對方同意複製他人聲音,並建議將此工具作為 AI 素養課程的教材,讓學生了解 AI 聲音詐騙的可能性。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕