OmniHuman:端到端多模態(tài)數(shù)字人視頻生成框架
OmniHuman是字節(jié)跳動(dòng)的一個(gè)基于擴(kuò)散Transformer的多模態(tài)數(shù)字人視頻生成框架。只需用一張照片和一段音頻,就可以生成視頻,而且動(dòng)作,口型和表情接近完美。
OmniHuman框架通過在訓(xùn)練階段將與運(yùn)動(dòng)相關(guān)的條件混合,來擴(kuò)展數(shù)據(jù)規(guī)模,這一框架的核心在于其能夠處理多種輸入模態(tài),從而生成更加真實(shí)和自然的數(shù)字人視頻。
OmniHuman關(guān)鍵特性
多模態(tài)輸入:OmniHuman支持多種輸入形式,包括文本、音頻和視頻,使得生成的數(shù)字人能夠在不同場景中表現(xiàn)出更豐富的情感和動(dòng)作,融合不同模態(tài)數(shù)據(jù),突破高質(zhì)量數(shù)據(jù)稀缺的瓶頸。
擴(kuò)展數(shù)據(jù)規(guī)模:通過引入運(yùn)動(dòng)相關(guān)的條件,OmniHuman能夠在訓(xùn)練過程中有效擴(kuò)展數(shù)據(jù)集,從而提高生成模型的泛化能力和表現(xiàn)力。
高質(zhì)量輸出:該框架利用先進(jìn)的深度學(xué)習(xí)技術(shù),能夠生成高質(zhì)量的數(shù)字人視頻,不僅支持真人,也支持3D人物和動(dòng)漫人物,適用于直播、娛樂和教育等多個(gè)領(lǐng)域。
實(shí)時(shí)生成:OmniHuman還具備實(shí)時(shí)生成的能力,使得用戶可以在互動(dòng)場景中即時(shí)獲得數(shù)字人的反饋和表現(xiàn)。
OmniHuman還支持多種驅(qū)動(dòng)模式,包括音頻驅(qū)動(dòng)、視頻驅(qū)動(dòng)和組合驅(qū)動(dòng)信號,使用戶在輸入方面擁有更大的靈活性。此外,OmniHuman能夠處理人體與物體的互動(dòng)和具有挑戰(zhàn)性的身體姿勢,進(jìn)一步增強(qiáng)了生成視頻的真實(shí)感和表現(xiàn)力。OmniHuman框架的設(shè)計(jì)理念是充分利用數(shù)據(jù)驅(qū)動(dòng)的動(dòng)作生成,最終實(shí)現(xiàn)高度逼真的人類視頻生成。與現(xiàn)有的端到端音頻驅(qū)動(dòng)方法相比,OmniHuman不僅能夠產(chǎn)生更逼真的視頻,還能在輸入方面提供更大的靈活性。視頻樣本可在ttfamily項(xiàng)目頁面上找到,展示了其在不同場景下的應(yīng)用效果。
OmniHuman應(yīng)用場景
虛擬主播:在直播平臺上,OmniHuman可以生成虛擬主播,提供實(shí)時(shí)互動(dòng)和娛樂內(nèi)容。
教育培訓(xùn):通過生成虛擬教師,OmniHuman可以在在線教育中提供個(gè)性化的學(xué)習(xí)體驗(yàn)。
游戲開發(fā):在游戲中,虛擬角色可以通過OmniHuman生成,提升游戲的沉浸感和互動(dòng)性。
OmniHuman項(xiàng)目地址:https://omnihuman-lab.github.io