
JoyGen
JoyGen簡介
JoyGen 是由京東科技與香港大學合作開發(fā)的音頻驅(qū)動3D說話人臉視頻生成框架,一種新穎的兩階段框架,這個技術(shù)在于通過音頻輸入來驅(qū)動3D深度感知模型,提供精確的唇部與音頻同步,以精確模擬說話者的唇部動作和面部表情,讓生成的視頻更逼真,主要應(yīng)用于視頻編輯和虛擬交互領(lǐng)域。
JoyGen使用了一個包含130小時高質(zhì)量視頻的中文說話人臉數(shù)據(jù)集進行訓練。這個數(shù)據(jù)集與開放的HDTF(高分辨率深度圖數(shù)據(jù)集)結(jié)合,支持中文和英文輸入。
另外,JoyGen也考慮了音頻的情緒特征,能夠在生成的動畫中自然地表現(xiàn)出人物的情感變化,例如微笑或皺眉等,非常的強。
JoyGen核心功能:
多語言支持:JoyGen能夠處理中文和英文等多種語言的音頻輸入。
高質(zhì)量視覺效果:通過細致的面部表情和唇部細節(jié)處理,生成的視頻極其逼真。
精確唇部同步:通過音頻特征分析和面部深度圖技術(shù),使視頻中人物的唇部動作與音頻內(nèi)容完美匹配。
視頻編輯優(yōu)化:不僅生成新視頻,還能對現(xiàn)有視頻進行唇部運動的編輯,不需要從頭開始又制作整個視頻序列。
高效技術(shù)架構(gòu):采用單步UNet架構(gòu),可以讓視頻編輯流程更簡單了。
技術(shù)原理:
1. 音頻驅(qū)動的唇部動作生成:
利用3D重建模型從面部圖像提取身份特征,定義人物的獨特面部結(jié)構(gòu)。
通過音頻到運動模型,將音頻信號轉(zhuǎn)換為控制唇部運動的表情系數(shù)。
結(jié)合身份和表情系數(shù),使用可微渲染技術(shù)生成面部深度圖,為后續(xù)視頻合成準備。
2. 視覺外觀合成:
采用單步UNet網(wǎng)絡(luò)整合音頻特征與深度圖,直接生成包含精確唇部運動的視頻幀。
引入跨注意力機制,確保唇部運動與音頻信號高度一致,增強同步性。
通過優(yōu)化過程(如L1損失函數(shù))確保視頻質(zhì)量,兼顧像素級和潛在空間的準確性。
如何使用JoyGen:
環(huán)境搭建:用戶需創(chuàng)建一個特定的conda環(huán)境,并安裝必要的依賴包,包括Nvdiffrast等特定庫。
預(yù)訓練模型下載:獲取JoyGen的預(yù)訓練模型,包括3D模型、音頻到運動模型等,這些資源通常在項目GitHub頁面上提供。
運行推理:通過執(zhí)行特定的腳本和參數(shù),用戶可以將音頻文件轉(zhuǎn)換為帶有逼真唇部同步的3D說話人臉視頻。
JoyGen應(yīng)用:
JoyGen將復雜的人臉視頻生成大大簡化了,它在數(shù)字人內(nèi)容創(chuàng)作、虛擬會議、娛樂等地方有非常大的作用。
GitHub:https://github.com/JOY-MM/JoyGen