I Made an AI Character Sit With Me and Have a Conversation (Full Tutorial)

Prompt Mastery·6月19日週五·18 min英文

三句話摘要

使用全本地 AI 工具鏈，讓 AI 生成角色走出螢幕、坐進真實場景與創作者對話。解析度精確匹配是 AI 動作轉移成功的命脈，OmniVoice + LTX 2.3 的音訊驅動組合則讓 AI 角色從「有臉」進化為「有靈魂」。 解析度匹配是整個流程的核心約束。 Scale 2 的動作轉移要求輸入影片與輸出影片解析度完全相同，一旦不匹配角色邊緣就會模糊或錯位；這也是放棄 12GP 內建工作流而改用 ComfyUI 的唯一原因——只有 ComfyUI 能設定任意自訂解析度（768×1088）。

重點整理

重點

1
解析度匹配是整個流程的核心約束。 Scale 2 的動作轉移要求輸入影片與輸出影片解析度完全相同，一旦不匹配角色邊緣就會模糊或錯位；這也是放棄 12GP 內建工作流而改用 ComfyUI 的唯一原因——只有 ComfyUI 能設定任意自訂解析度（768×1088）。
2
「Solo Method」讓一個人能同時扮演兩個角色。 若沒有助手協助動作捕捉，可架好攝影機坐在左椅說話、再坐右椅說話，剪輯軟體左右拼接後，取其中一側作為驅動影片輸入 Scale 2，即可完成角色替換。
3
OmniVoice + LTX 2.3 組合實現了精準的音訊驅動控制。 OmniVoice 先從網路素材複製目標語音，LTX 2.3 再根據音訊與提示詞生成角色影片，使口型、表情與動作完全跟隨聲音，解決了傳統生成影片缺乏靈魂感的問題。
4
後期遮罩與羽化是開場融合場景不可缺少的收尾步驟。 Scale 2 雖能保留背景，但背景還原並不完美，必須在剪輯軟體中以矩形遮罩框住角色、加入羽化與圓角，才能讓 AI 角色自然融入真實場景。

實用技巧與重點

乾貨

開場場景研發時間：8 小時
原始影片裁切尺寸：960×1080
Scale 2 / Flux 2 Client 工作解析度：768×1088
Scale 2 最高支援解析度：720p
單次生成嘗試次數：10–20 次以上
工具：ComfyUI（主工作流）、Flux 2 Client（角色替換）、Scale 2（人體動作轉移）、12GP（1-2 GP）（模型平台）、LTX 2.3（音訊驅動影片生成）、OmniVoice（語音複製，12GP 內建）、CapCut（初步剪輯，但有解析度限制）、Claude（生成自訂裁切工具）
Scale 2 關鍵節點設定：`Resize Image Mask` 改為 Match Size，並將圖像連結至 Match
流程順序：拍攝動作影片 → 精確裁切 → Flux 2 角色替換 → Scale 2 動作轉移 → 剪輯遮罩融合 → OmniVoice 聲音複製 → LTX 2.3 音訊驅動生成 → 片段組合

結論

“解析度精確匹配是 AI 動作轉移成功的命脈，OmniVoice + LTX 2.3 的音訊驅動組合則讓 AI 角色從「有臉」進化為「有靈魂」。”

完整解析

詳細

這支影片的出發點是一個創作者長期以來的執念：AI 圖像生成器已能造出逼真的虛擬角色，但這些角色始終被困在螢幕裡。創作者的目標是讓 AI 角色真正「走進」真實拍攝的房間，與他坐在同一空間對話——不是後期合成的感覺，而是自然融合的視覺效果。

整個製作分為兩個難度截然不同的部分。最困難的是開場五秒：AI 角色坐進真實場景、開口與創作者交流。這段場景的核心技術是「人體動作轉移（Motion Transfer）」，由 Scale 2 模型負責。流程是先拍攝真人（本片為創作者的女兒）的動作影片，再用 Flux 2 Client 在 ComfyUI 中生成 AI 角色的靜態圖像，然後將 AI 角色疊上真人動作。這裡有一個反直覺的技術細節：Scale 2 對解析度極為敏感，輸入影片的解析度必須與輸出完全一致，否則合成結果會模糊或錯位。CapCut 的裁切功能無法輸出任意解析度，創作者因此轉向 Claude，請它直接生成一支自訂裁切工具。最終工作流設定為精確的 768×1088，ComfyUI 裡的 `Resize Image Mask` 節點也必須切換為 `Match Size` 模式。生成後在剪輯軟體中用矩形遮罩框住角色、加入羽化與圓角，才讓接縫消失、角色看起來真的坐在那個房間裡。這五秒鐘光是研發就耗費了整整八個小時。

相對地，說話場景的製作則輕鬆許多。創作者先用 12GP 平台上的 OmniVoice 工具複製一個從網路找到的語音樣本，再將這份音訊交給 LTX 2.3。LTX 2.3 是一個音訊驅動的影片生成模型，能讓 AI 角色的口型、表情、肢體動作完全跟隨聲音節奏，配合提示詞還能精確控制角色在特定秒數做出特定動作。這個組合讓 AI 角色不再是空洞的視覺形象，而是有靈魂的「演員」。創作者強調，OmniVoice 配合 Omni LoRa 的設定是他目前發現的最強語音複製搭配，效果令他震驚，甚至認為值得單獨做一期完整教學。

整支影片的製作哲學是「全本地 AI」——沒有使用任何雲端訂閱服務，所有生成都在本機完成。創作者在最後坦言，要維持 AI 角色的長期一致性仍有挑戰（超過 10–20 秒後角色容易漂移），目前的解法是用「滑動視窗」分段生成再拼接，但這個方向尚在摸索中。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

I Made an AI Character Sit With Me and Have a Conversation (Full Tutorial)

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備