首頁 > Ai資訊 > Ai科技

OmniHuman：端到端多模態(tài)數(shù)字人視頻生成框架

映技派于2025-02-04發(fā)布在Ai科技

OmniHuman是字節(jié)跳動(dòng)的一個(gè)基于擴(kuò)散Transformer的多模態(tài)數(shù)字人視頻生成框架。只需用一張照片和一段音頻，就可以生成視頻，而且動(dòng)作，口型和表情接近完美。

OmniHuman框架通過在訓(xùn)練階段將與運(yùn)動(dòng)相關(guān)的條件混合，來擴(kuò)展數(shù)據(jù)規(guī)模，這一框架的核心在于其能夠處理多種輸入模態(tài)，從而生成更加真實(shí)和自然的數(shù)字人視頻。

OmniHuman關(guān)鍵特性

多模態(tài)輸入：OmniHuman支持多種輸入形式，包括文本、音頻和視頻，使得生成的數(shù)字人能夠在不同場景中表現(xiàn)出更豐富的情感和動(dòng)作，融合不同模態(tài)數(shù)據(jù)，突破高質(zhì)量數(shù)據(jù)稀缺的瓶頸。
擴(kuò)展數(shù)據(jù)規(guī)模：通過引入運(yùn)動(dòng)相關(guān)的條件，OmniHuman能夠在訓(xùn)練過程中有效擴(kuò)展數(shù)據(jù)集，從而提高生成模型的泛化能力和表現(xiàn)力。
高質(zhì)量輸出：該框架利用先進(jìn)的深度學(xué)習(xí)技術(shù)，能夠生成高質(zhì)量的數(shù)字人視頻，不僅支持真人，也支持3D人物和動(dòng)漫人物，適用于直播、娛樂和教育等多個(gè)領(lǐng)域。
實(shí)時(shí)生成：OmniHuman還具備實(shí)時(shí)生成的能力，使得用戶可以在互動(dòng)場景中即時(shí)獲得數(shù)字人的反饋和表現(xiàn)。

OmniHuman還支持多種驅(qū)動(dòng)模式，包括音頻驅(qū)動(dòng)、視頻驅(qū)動(dòng)和組合驅(qū)動(dòng)信號，使用戶在輸入方面擁有更大的靈活性。此外，OmniHuman能夠處理人體與物體的互動(dòng)和具有挑戰(zhàn)性的身體姿勢，進(jìn)一步增強(qiáng)了生成視頻的真實(shí)感和表現(xiàn)力。OmniHuman框架的設(shè)計(jì)理念是充分利用數(shù)據(jù)驅(qū)動(dòng)的動(dòng)作生成，最終實(shí)現(xiàn)高度逼真的人類視頻生成。與現(xiàn)有的端到端音頻驅(qū)動(dòng)方法相比，OmniHuman不僅能夠產(chǎn)生更逼真的視頻，還能在輸入方面提供更大的靈活性。視頻樣本可在ttfamily項(xiàng)目頁面上找到，展示了其在不同場景下的應(yīng)用效果。

OmniHuman應(yīng)用場景