KeyFrame
AI 技術編輯精選

I Made an AI Character Sit With Me and Have a Conversation (Full Tutorial)

Prompt Mastery·6月19日週五·18 min英文

三句話摘要

使用全本地 AI 工具鏈,讓 AI 生成角色走出螢幕、坐進真實場景與創作者對話。 解析度精確匹配是 AI 動作轉移成功的命脈,OmniVoice + LTX 2.3 的音訊驅動組合則讓 AI 角色從「有臉」進化為「有靈魂」。 解析度匹配是整個流程的核心約束。 Scale 2 的動作轉移要求輸入影片與輸出影片解析度完全相同,一旦不匹配角色邊緣就會模糊或錯位;這也是放棄 12GP 內建工作流而改用 ComfyUI 的唯一原因——只有 ComfyUI 能設定任意自訂解析度(768×1088)。

重點整理

重點
  • 1

    解析度匹配是整個流程的核心約束。 Scale 2 的動作轉移要求輸入影片與輸出影片解析度完全相同,一旦不匹配角色邊緣就會模糊或錯位;這也是放棄 12GP 內建工作流而改用 ComfyUI 的唯一原因——只有 ComfyUI 能設定任意自訂解析度(768×1088)。

  • 2

    「Solo Method」讓一個人能同時扮演兩個角色。 若沒有助手協助動作捕捉,可架好攝影機坐在左椅說話、再坐右椅說話,剪輯軟體左右拼接後,取其中一側作為驅動影片輸入 Scale 2,即可完成角色替換。

  • 3

    OmniVoice + LTX 2.3 組合實現了精準的音訊驅動控制。 OmniVoice 先從網路素材複製目標語音,LTX 2.3 再根據音訊與提示詞生成角色影片,使口型、表情與動作完全跟隨聲音,解決了傳統生成影片缺乏靈魂感的問題。

  • 4

    後期遮罩與羽化是開場融合場景不可缺少的收尾步驟。 Scale 2 雖能保留背景,但背景還原並不完美,必須在剪輯軟體中以矩形遮罩框住角色、加入羽化與圓角,才能讓 AI 角色自然融入真實場景。

實用技巧與重點

乾貨
  • 開場場景研發時間:8 小時
  • 原始影片裁切尺寸:960×1080
  • Scale 2 / Flux 2 Client 工作解析度:768×1088
  • Scale 2 最高支援解析度:720p
  • 單次生成嘗試次數:10–20 次以上
  • 工具:ComfyUI(主工作流)、Flux 2 Client(角色替換)、Scale 2(人體動作轉移)、12GP(1-2 GP)(模型平台)、LTX 2.3(音訊驅動影片生成)、OmniVoice(語音複製,12GP 內建)、CapCut(初步剪輯,但有解析度限制)、Claude(生成自訂裁切工具)
  • Scale 2 關鍵節點設定:`Resize Image Mask` 改為 Match Size,並將圖像連結至 Match
  • 流程順序:拍攝動作影片 → 精確裁切 → Flux 2 角色替換 → Scale 2 動作轉移 → 剪輯遮罩融合 → OmniVoice 聲音複製 → LTX 2.3 音訊驅動生成 → 片段組合

結論

結論

解析度精確匹配是 AI 動作轉移成功的命脈,OmniVoice + LTX 2.3 的音訊驅動組合則讓 AI 角色從「有臉」進化為「有靈魂」。

完整解析

詳細

這支影片的出發點是一個創作者長期以來的執念:AI 圖像生成器已能造出逼真的虛擬角色,但這些角色始終被困在螢幕裡。創作者的目標是讓 AI 角色真正「走進」真實拍攝的房間,與他坐在同一空間對話——不是後期合成的感覺,而是自然融合的視覺效果。

整個製作分為兩個難度截然不同的部分。最困難的是開場五秒:AI 角色坐進真實場景、開口與創作者交流。這段場景的核心技術是「人體動作轉移(Motion Transfer)」,由 Scale 2 模型負責。流程是先拍攝真人(本片為創作者的女兒)的動作影片,再用 Flux 2 Client 在 ComfyUI 中生成 AI 角色的靜態圖像,然後將 AI 角色疊上真人動作。這裡有一個反直覺的技術細節:Scale 2 對解析度極為敏感,輸入影片的解析度必須與輸出完全一致,否則合成結果會模糊或錯位。CapCut 的裁切功能無法輸出任意解析度,創作者因此轉向 Claude,請它直接生成一支自訂裁切工具。最終工作流設定為精確的 768×1088,ComfyUI 裡的 `Resize Image Mask` 節點也必須切換為 `Match Size` 模式。生成後在剪輯軟體中用矩形遮罩框住角色、加入羽化與圓角,才讓接縫消失、角色看起來真的坐在那個房間裡。這五秒鐘光是研發就耗費了整整八個小時。

相對地,說話場景的製作則輕鬆許多。創作者先用 12GP 平台上的 OmniVoice 工具複製一個從網路找到的語音樣本,再將這份音訊交給 LTX 2.3。LTX 2.3 是一個音訊驅動的影片生成模型,能讓 AI 角色的口型、表情、肢體動作完全跟隨聲音節奏,配合提示詞還能精確控制角色在特定秒數做出特定動作。這個組合讓 AI 角色不再是空洞的視覺形象,而是有靈魂的「演員」。創作者強調,OmniVoice 配合 Omni LoRa 的設定是他目前發現的最強語音複製搭配,效果令他震驚,甚至認為值得單獨做一期完整教學。

整支影片的製作哲學是「全本地 AI」——沒有使用任何雲端訂閱服務,所有生成都在本機完成。創作者在最後坦言,要維持 AI 角色的長期一致性仍有挑戰(超過 10–20 秒後角色容易漂移),目前的解法是用「滑動視窗」分段生成再拼接,但這個方向尚在摸索中。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕