HunyuanVideo-Avatar :騰訊混元推出的語音驅動的數字人模型
HunyuanVideo-Avatar是什么?
HunyuanVideo - Avatar是騰訊混元基于騰訊混元視頻大模型(HunyuanVideo)開源的語音數字人模型,通過音頻驅動,HunyuanVideo-Avatar 技術能夠生成動態人物視頻,展現人物的說話、肢體和頭部動作及表情,支持多個角色的互動場景。目的在于解決音頻驅動人物動畫領域的三個難點,生成高動態視頻同時保持角色一致性、實現角色與音頻的精確情感對齊、支持多角色音頻驅動動畫。
HunyuanVideo - Avatar功能特點
多景別支持:支持頭肩、半身與全身景別,用戶可根據需求選擇合適的拍攝視角。
多風格與多物種場景:支持多風格(如賽博朋克、2D動漫、中國水墨畫等)、多物種(包括機器人、動物等)以及雙人場景。
高一致性、高動態性視頻生成:能根據輸入的人物圖像和音頻,自動理解圖片與音頻內容,比如人物所在環境、音頻所蘊含的情感等,讓圖中人物自然地說話或唱歌,生成包含自然表情、唇形同步及全身動作的視頻,而且保證視頻中主體一致性以及視頻的整體動態性。
廣泛的應用場景:適用于短視頻創作、電商與廣告等多種應用場景,可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產品介紹視頻或多人互動廣告,有效降低制作成本。
多角色精準驅動:在多人互動場景中,能精準驅動多個角色,確保唇形、表情和動作與音頻同步,互動自然。
HunyuanVideo - Avatar技術創新
角色圖像注入模塊:基于多模態擴散Transformer(MM - DiT)架構,確保角色一致性與視頻動態性,解決了在生成視頻時,既保持人物形象的高度一致性,又能讓人物動作流暢自然的問題。
音頻情感模塊(AEM):會從音頻和參考圖像提取情感信息,生成細膩的表情和動作,使數字人能根據音頻情感展現出相應的面部表情。
面部感知音頻適配器(FAA):通過人臉掩碼技術隔離角色音頻,實現多人場景的精準驅動,可獨立驅動不同人物的唇形和表情,避免不同人物之間動作互相影響。
HunyuanVideo - Avatar使用方法
你可在騰訊混元官網(https://hunyuan.tencent.com/)的“模型廣場 - 混元生視頻 - 數字人 - 語音驅動 - HunyuanVideo - Avatar”中體驗,目前支持上傳不超過14秒的音頻進行視頻生成。
HunyuanVideo - Avatar應用場景
短視頻創作:可快速生成各種場景下的對話、表演等視頻片段。
電商廣告:用于制作產品介紹視頻、多人互動廣告等。
虛擬助手或游戲:創建動畫頭像,提升交互體驗。
項目鏈接
項目主頁:https://hunyuanvideo-avatar.github.io
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar