HunyuanVideo-Avatar :騰訊混元推出的語(yǔ)音驅(qū)動(dòng)的數(shù)字人模型
HunyuanVideo-Avatar是什么?
HunyuanVideo - Avatar是騰訊混元基于騰訊混元視頻大模型(HunyuanVideo)開(kāi)源的語(yǔ)音數(shù)字人模型,通過(guò)音頻驅(qū)動(dòng),HunyuanVideo-Avatar 技術(shù)能夠生成動(dòng)態(tài)人物視頻,展現(xiàn)人物的說(shuō)話、肢體和頭部動(dòng)作及表情,支持多個(gè)角色的互動(dòng)場(chǎng)景。目的在于解決音頻驅(qū)動(dòng)人物動(dòng)畫領(lǐng)域的三個(gè)難點(diǎn),生成高動(dòng)態(tài)視頻同時(shí)保持角色一致性、實(shí)現(xiàn)角色與音頻的精確情感對(duì)齊、支持多角色音頻驅(qū)動(dòng)動(dòng)畫。
HunyuanVideo - Avatar功能特點(diǎn)
多景別支持:支持頭肩、半身與全身景別,用戶可根據(jù)需求選擇合適的拍攝視角。
多風(fēng)格與多物種場(chǎng)景:支持多風(fēng)格(如賽博朋克、2D動(dòng)漫、中國(guó)水墨畫等)、多物種(包括機(jī)器人、動(dòng)物等)以及雙人場(chǎng)景。
高一致性、高動(dòng)態(tài)性視頻生成:能根據(jù)輸入的人物圖像和音頻,自動(dòng)理解圖片與音頻內(nèi)容,比如人物所在環(huán)境、音頻所蘊(yùn)含的情感等,讓圖中人物自然地說(shuō)話或唱歌,生成包含自然表情、唇形同步及全身動(dòng)作的視頻,而且保證視頻中主體一致性以及視頻的整體動(dòng)態(tài)性。
廣泛的應(yīng)用場(chǎng)景:適用于短視頻創(chuàng)作、電商與廣告等多種應(yīng)用場(chǎng)景,可以生成人物在不同場(chǎng)景下的說(shuō)話、對(duì)話、表演等片段,快速制作產(chǎn)品介紹視頻或多人互動(dòng)廣告,有效降低制作成本。
多角色精準(zhǔn)驅(qū)動(dòng):在多人互動(dòng)場(chǎng)景中,能精準(zhǔn)驅(qū)動(dòng)多個(gè)角色,確保唇形、表情和動(dòng)作與音頻同步,互動(dòng)自然。
HunyuanVideo - Avatar技術(shù)創(chuàng)新
角色圖像注入模塊:基于多模態(tài)擴(kuò)散Transformer(MM - DiT)架構(gòu),確保角色一致性與視頻動(dòng)態(tài)性,解決了在生成視頻時(shí),既保持人物形象的高度一致性,又能讓人物動(dòng)作流暢自然的問(wèn)題。
音頻情感模塊(AEM):會(huì)從音頻和參考圖像提取情感信息,生成細(xì)膩的表情和動(dòng)作,使數(shù)字人能根據(jù)音頻情感展現(xiàn)出相應(yīng)的面部表情。
面部感知音頻適配器(FAA):通過(guò)人臉掩碼技術(shù)隔離角色音頻,實(shí)現(xiàn)多人場(chǎng)景的精準(zhǔn)驅(qū)動(dòng),可獨(dú)立驅(qū)動(dòng)不同人物的唇形和表情,避免不同人物之間動(dòng)作互相影響。
HunyuanVideo - Avatar使用方法
你可在騰訊混元官網(wǎng)(https://hunyuan.tencent.com/)的“模型廣場(chǎng) - 混元生視頻 - 數(shù)字人 - 語(yǔ)音驅(qū)動(dòng) - HunyuanVideo - Avatar”中體驗(yàn),目前支持上傳不超過(guò)14秒的音頻進(jìn)行視頻生成。
HunyuanVideo - Avatar應(yīng)用場(chǎng)景
短視頻創(chuàng)作:可快速生成各種場(chǎng)景下的對(duì)話、表演等視頻片段。
電商廣告:用于制作產(chǎn)品介紹視頻、多人互動(dòng)廣告等。
虛擬助手或游戲:創(chuàng)建動(dòng)畫頭像,提升交互體驗(yàn)。
項(xiàng)目鏈接
項(xiàng)目主頁(yè):https://hunyuanvideo-avatar.github.io
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar