I Made an AI Character Sit With Me and Have a Conversation (Full Tutorial)
三句話摘要
使用全本地 AI 工具鏈,讓 AI 生成角色走出螢幕、坐進真實場景與創作者對話。 解析度精確匹配是 AI 動作轉移成功的命脈,OmniVoice + LTX 2.3 的音訊驅動組合則讓 AI 角色從「有臉」進化為「有靈魂」。 解析度匹配是整個流程的核心約束。 Scale 2 的動作轉移要求輸入影片與輸出影片解析度完全相同,一旦不匹配角色邊緣就會模糊或錯位;這也是放棄 12GP 內建工作流而改用 ComfyUI 的唯一原因——只有 ComfyUI 能設定任意自訂解析度(768×1088)。
重點整理
重點- 1
解析度匹配是整個流程的核心約束。 Scale 2 的動作轉移要求輸入影片與輸出影片解析度完全相同,一旦不匹配角色邊緣就會模糊或錯位;這也是放棄 12GP 內建工作流而改用 ComfyUI 的唯一原因——只有 ComfyUI 能設定任意自訂解析度(768×1088)。
- 2
「Solo Method」讓一個人能同時扮演兩個角色。 若沒有助手協助動作捕捉,可架好攝影機坐在左椅說話、再坐右椅說話,剪輯軟體左右拼接後,取其中一側作為驅動影片輸入 Scale 2,即可完成角色替換。
- 3
OmniVoice + LTX 2.3 組合實現了精準的音訊驅動控制。 OmniVoice 先從網路素材複製目標語音,LTX 2.3 再根據音訊與提示詞生成角色影片,使口型、表情與動作完全跟隨聲音,解決了傳統生成影片缺乏靈魂感的問題。
- 4
後期遮罩與羽化是開場融合場景不可缺少的收尾步驟。 Scale 2 雖能保留背景,但背景還原並不完美,必須在剪輯軟體中以矩形遮罩框住角色、加入羽化與圓角,才能讓 AI 角色自然融入真實場景。
實用技巧與重點
乾貨- 開場場景研發時間:8 小時
- 原始影片裁切尺寸:960×1080
- Scale 2 / Flux 2 Client 工作解析度:768×1088
- Scale 2 最高支援解析度:720p
- 單次生成嘗試次數:10–20 次以上
- 工具:ComfyUI(主工作流)、Flux 2 Client(角色替換)、Scale 2(人體動作轉移)、12GP(1-2 GP)(模型平台)、LTX 2.3(音訊驅動影片生成)、OmniVoice(語音複製,12GP 內建)、CapCut(初步剪輯,但有解析度限制)、Claude(生成自訂裁切工具)
- Scale 2 關鍵節點設定:`Resize Image Mask` 改為 Match Size,並將圖像連結至 Match
- 流程順序:拍攝動作影片 → 精確裁切 → Flux 2 角色替換 → Scale 2 動作轉移 → 剪輯遮罩融合 → OmniVoice 聲音複製 → LTX 2.3 音訊驅動生成 → 片段組合
結論
結論“解析度精確匹配是 AI 動作轉移成功的命脈,OmniVoice + LTX 2.3 的音訊驅動組合則讓 AI 角色從「有臉」進化為「有靈魂」。”
完整解析
詳細這支影片的出發點是一個創作者長期以來的執念:AI 圖像生成器已能造出逼真的虛擬角色,但這些角色始終被困在螢幕裡。創作者的目標是讓 AI 角色真正「走進」真實拍攝的房間,與他坐在同一空間對話——不是後期合成的感覺,而是自然融合的視覺效果。
整個製作分為兩個難度截然不同的部分。最困難的是開場五秒:AI 角色坐進真實場景、開口與創作者交流。這段場景的核心技術是「人體動作轉移(Motion Transfer)」,由 Scale 2 模型負責。流程是先拍攝真人(本片為創作者的女兒)的動作影片,再用 Flux 2 Client 在 ComfyUI 中生成 AI 角色的靜態圖像,然後將 AI 角色疊上真人動作。這裡有一個反直覺的技術細節:Scale 2 對解析度極為敏感,輸入影片的解析度必須與輸出完全一致,否則合成結果會模糊或錯位。CapCut 的裁切功能無法輸出任意解析度,創作者因此轉向 Claude,請它直接生成一支自訂裁切工具。最終工作流設定為精確的 768×1088,ComfyUI 裡的 `Resize Image Mask` 節點也必須切換為 `Match Size` 模式。生成後在剪輯軟體中用矩形遮罩框住角色、加入羽化與圓角,才讓接縫消失、角色看起來真的坐在那個房間裡。這五秒鐘光是研發就耗費了整整八個小時。
相對地,說話場景的製作則輕鬆許多。創作者先用 12GP 平台上的 OmniVoice 工具複製一個從網路找到的語音樣本,再將這份音訊交給 LTX 2.3。LTX 2.3 是一個音訊驅動的影片生成模型,能讓 AI 角色的口型、表情、肢體動作完全跟隨聲音節奏,配合提示詞還能精確控制角色在特定秒數做出特定動作。這個組合讓 AI 角色不再是空洞的視覺形象,而是有靈魂的「演員」。創作者強調,OmniVoice 配合 Omni LoRa 的設定是他目前發現的最強語音複製搭配,效果令他震驚,甚至認為值得單獨做一期完整教學。
整支影片的製作哲學是「全本地 AI」——沒有使用任何雲端訂閱服務,所有生成都在本機完成。創作者在最後坦言,要維持 AI 角色的長期一致性仍有挑戰(超過 10–20 秒後角色容易漂移),目前的解法是用「滑動視窗」分段生成再拼接,但這個方向尚在摸索中。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


