Hallo:用于肖像圖像動畫的分層音頻驅動視覺合成
Hallo,可以根據單張圖像和音頻輸入生成唱歌和說話視頻,并能控制人物表情和姿態,和EMO相比,Hallo由于使用了擴散模型來實現層次化的音頻驅動視覺合成,它能夠通過輸入語音,生成對應的人物嘴唇同步、表情變化和姿態變化的動畫。提高了語音與生成動畫之間的對齊精度,使動畫的嘴唇、表情和姿態與語音的同步。
Hallo功能特征:
虛擬角色動畫生成:通過語音音頻輸入生成逼真的、動態的虛擬角色動畫,并實現虛擬角色的口型、表情和姿態的精確同步。
真實角色動畫生成:將技術應用于真實人物的語音驅動動畫生成,生成的動畫能準確反映真實人物的表情和動作變化。
多種運動控制:提供對角色表情、姿態和嘴唇運動的精確控制,支持多種表情和姿態的自適應控制,增強動畫的多樣性和真實性。
跨演員應用:支持不同身份的個性化動畫生成,通過音頻輸入,生成適應不同角色身份的動畫效果。
歌唱動畫生成:通過語音和歌曲音頻輸入,生成同步的歌唱動畫,動畫能夠準確反映歌唱時的口型和表情變化。
Hallo其它特點:
實時性:采用擴散模型結構,增強了動畫生成的實時性,使得生成的動畫更加逼真和自然。
個性化:可以根據不同的演員或角色定制不同的個性化的動畫效果。
多樣性:提供多種運動控制,包括表情、姿態和嘴唇運動,使動畫更加多樣化和真實性。
Hallo項目地址:https://fudan-generative-vision.github.io/hallo
Hallo Github:https://github.com/fudan-generative-vision/hallo
Hallo 論文:https://arxiv.org/abs/2406.08801
HuggingFace:https://huggingface.co/fudan-generative-ai/hallo
相關文章
- 用戶登錄