
Audio2Photoreal
Audio2Photoreal簡介
Meta ai最近發(fā)布了一項炸裂的技術:Audio2PhotoReal,從音頻生成全身逼真的虛擬人物形象。它可以從多人對話中語音中生成與對話相對應的逼真面部表情、完整身體和手勢動作。
這些生成的虛擬人物不僅在視覺上很逼真,而且能夠準確地反映出對話中的手勢和表情細節(jié),如指點、手腕抖動、聳肩、微笑、嘲笑等。
Audio2PhotoReal工作原理:
Audio2PhotoReal結(jié)合了向量量化的樣本多樣性和通過擴散獲得的高頻細節(jié)的優(yōu)勢,以生成更具動態(tài)性和表現(xiàn)力的動作。
1、數(shù)據(jù)集捕獲:首先捕獲了一組豐富的雙人對話數(shù)據(jù)集,這些數(shù)據(jù)集允許進行逼真的重建。
2、運動模型構(gòu)建:項目構(gòu)建了一個包括面部運動模型、引導姿勢預測器和身體運動模型的復合運動模型。
3、面部運動生成:使用預訓練的唇部回歸器處理音頻,提取面部運動相關的特征。
利用條件擴散模型根據(jù)這些特征生成面部運動。
4、身體運動生成:以音頻為輸入,自回歸地輸出每秒1幀的向量量化(VQ)引導姿勢。將音頻和引導姿勢一起輸入到擴散模型中,以30幀/秒的速度生成高頻身體運動。
5、虛擬人物渲染:將生成的面部和身體運動傳入訓練好的虛擬人物渲染器,生成逼真的虛擬人物。
6、結(jié)果展示:最終展示的是根據(jù)音頻生成的全身逼真虛擬人物,這些虛擬人物能夠表現(xiàn)出對話中的細微表情和手勢動作。
Audio2Photoreal項目地址:https://github.com/facebookresearch/audio2photoreal/
Audio2Photoreal論文地址:https://arxiv.org/pdf/2401.01885.pdf