Media2Face
Media2Face簡介
在人工智能領域,從語音中創(chuàng)建準確的面部唇部動作一直是一個持續(xù)的挑戰(zhàn)。然而,突破已經(jīng)到來——Media2Face。
Media2Face是通過音頻、文本和圖像多模態(tài)引導的共語言面部動畫生成工具。它利用音頻、文本和圖像輸入的引導來自然地模仿人類語言,引入了廣義神經(jīng)參數(shù)面部資產 (GNPFA)。這是一種高效替在空間,從而解耦表情和身份。然后,我們利用GNPFA從大量視頻中提的變分自動編碼器,可將面部幾何形狀和圖像映射到高度廣義的表情取高質量的表情和準確的頭部姿勢。
由于高質量的 4D 面部數(shù)據(jù)有限,從語音合成 3D 面部動畫面臨著挑戰(zhàn)。然而,借助 Media2Face,現(xiàn)在可以從任何音頻、圖像或文本輸入無縫生成逼真且富有表現(xiàn)力的面部動畫。
Media2Face能夠根據(jù)聲音來生成與語音同步的、表現(xiàn)力豐富的3D面部動畫。同時允許用戶對生成的面部動畫進行更細致的個性化調整,如情感調整,“快樂”或“悲傷”等。Media2Face還能理解多種類型的輸入信息(音頻、文本、圖像),并將這些信息作為生成面部動畫的指引。
Media2Face實際應用:
創(chuàng)造對話場景:根據(jù)你寫的劇本,電腦可以生成人物對話的動畫場景。
制作風格化的面部動畫:你可以給電腦一個表情符號,它就能根據(jù)這個符號創(chuàng)造出動畫。
情感歌唱:電腦還能根據(jù)不同的語言唱歌,表現(xiàn)出對應的情感。
個性化動畫:最神奇的是,這個項目能夠創(chuàng)造出符合不同人種、年齡和性別的個性化面部動畫。
影視制作公司使用Media2Face生成影片中虛擬人物的面部動畫。
虛擬主持平臺利用Media2Face實現(xiàn)虛擬主持的面部表情生成。
游戲開發(fā)公司在虛擬角色設計中應用Media2Face進行面部動畫生成。
Media2Face是如何工作的?
Media2Face項目的工作原理涉及幾個關鍵技術和步驟,使其能夠從語音合成出具有豐富表情和情感的3D面部動畫。下面是該項目的主要工作流程:
1. 通用神經(jīng)參數(shù)化面部資產(GNPFA):
首先,研究團隊創(chuàng)建了一個特殊的工具(叫做GNPFA),它就像一個大型的面部表情數(shù)據(jù)庫。無論你想要什么樣的表情,這個工具都能幫你找到,并且還能確保每個人的面部動畫都獨一無二,不會和別人混淆。
這個過程實現(xiàn)了表情和身份的解耦,即能夠在不同的身份之間轉換相同的表情。
然后,他們用這個工具處理了很多視頻,從中提取出了高質量的表情和頭部動作。這樣就創(chuàng)建了一個巨大的數(shù)據(jù)集,里面包含了各種各樣的面部動畫和對應的情感、風格標簽。
2. 多模態(tài)引導的動畫生成:
Media2Face采用一個擴散模型在GNPFA的潛在空間中進行動畫生成,這個模型能夠接受來自音頻、文本和圖像的多模態(tài)引導。
模型將音頻特征和CLIP潛在代碼作為條件,與表情潛在代碼序列的噪聲版本以及頭部運動代碼(即頭部姿勢)一起去噪。條件被隨機掩蔽,并通過與噪聲頭部運動代碼的交叉注意力進行處理。
3. 表情和頭部姿勢生成:
利用GNPFA從大量視頻中提取高質量的表情和準確的頭部姿勢。這呈現(xiàn)了 M2F-D 數(shù)據(jù)集,這是一個大型、多樣化和掃描級別的共同語音3D面部動畫數(shù)據(jù)集,具有注釋良好的情感和風格標簽。
4.表情和風格微調:
通過表情編碼器提取關鍵幀表情潛在代碼,并通過CLIP提供每幀的風格提示,如“快樂”或“悲傷”,用戶可以調整動畫的強度和控制范圍。
通過以上這些技術步驟,Media2Face能夠生成與語音同步的、表現(xiàn)力豐富的3D面部動畫,支持復雜的情感表達和風格變化,為創(chuàng)建虛擬角色和增強AI數(shù)字人的交互體驗提供了強大工具,大量實驗表明,Media2Face不僅在面部動畫合成中實現(xiàn)了高保真度,而且拓寬了3D面部動畫的表現(xiàn)力和風格適應性。