FantasyTalking:阿里巴巴一款從單張靜態(tài)肖像生成逼真的動(dòng)態(tài)說(shuō)話肖像生成工具
FantasyTalking是什么?
FantasyTalking 是阿里巴巴研發(fā)的一款虛擬角色動(dòng)畫生成工具,可從單張靜態(tài)肖像生成逼真的動(dòng)態(tài)說(shuō)話肖像。它采用雙階段音頻-視覺對(duì)齊策略,確保口型與語(yǔ)音精準(zhǔn)同步,同時(shí)通過(guò)面部聚焦的交叉注意力模塊和運(yùn)動(dòng)強(qiáng)度調(diào)制模塊,生成自然、多樣化的動(dòng)畫。只要應(yīng)用在游戲、影視、虛擬現(xiàn)實(shí)上,可以快速生成高質(zhì)量的虛擬角色動(dòng)畫。
FantasyTalking 技術(shù)原理
雙階段音頻-視覺對(duì)齊策略:第一階段采用片段級(jí)訓(xùn)練方案,對(duì)整個(gè)場(chǎng)景中的音頻驅(qū)動(dòng)動(dòng)態(tài)進(jìn)行對(duì)齊,包括參考肖像、上下文對(duì)象和背景,建立連貫的全局運(yùn)動(dòng);第二階段通過(guò)唇部追蹤掩碼在幀級(jí)別細(xì)化唇部運(yùn)動(dòng),確保與音頻信號(hào)精確同步。
面部聚焦的交叉注意力模塊:取代常用的參考網(wǎng)絡(luò),有效保持視頻中面部的一致性。
運(yùn)動(dòng)強(qiáng)度調(diào)制模塊:明確控制表情和身體運(yùn)動(dòng)的強(qiáng)度,使肖像的運(yùn)動(dòng)不僅限于唇部動(dòng)作,還能實(shí)現(xiàn)更自然、多樣化的動(dòng)畫。
FantasyTalking 主要功能
口型同步:能夠準(zhǔn)確識(shí)別并同步虛擬角色的口型與輸入語(yǔ)音,使角色說(shuō)話時(shí)的口型與語(yǔ)音內(nèi)容完全一致。
面部動(dòng)作生成:根據(jù)語(yǔ)音內(nèi)容和情感信息,生成眨眼、皺眉、微笑等豐富的面部動(dòng)作。
全身動(dòng)作生成:根據(jù)場(chǎng)景和情節(jié)需要,生成行走、奔跑、跳躍等全身動(dòng)作。
FantasyTalking核心優(yōu)勢(shì)
高度逼真:利用先進(jìn)的人工智能算法和深度學(xué)習(xí)技術(shù),生成的虛擬角色動(dòng)畫在外觀、動(dòng)作和表情上都與真實(shí)人類無(wú)異。
靈活易用:提供簡(jiǎn)潔直觀的用戶界面和豐富的 API 接口,支持多種輸入格式和輸出格式,方便用戶快速上手并集成到自己的項(xiàng)目中。
高效穩(wěn)定:采用優(yōu)化的算法和高效的計(jì)算架構(gòu),能在短時(shí)間內(nèi)生成高質(zhì)量的虛擬角色動(dòng)畫,同時(shí)保證系統(tǒng)的穩(wěn)定性和可靠性。
FantasyTalking 應(yīng)用場(chǎng)景
游戲開發(fā):可用于生成游戲角色的對(duì)話動(dòng)畫、戰(zhàn)斗動(dòng)畫等,提升游戲的視覺效果和互動(dòng)性。
影視制作:幫助制作團(tuán)隊(duì)快速生成高質(zhì)量的虛擬角色表演動(dòng)畫、特效動(dòng)畫等,降低制作成本和時(shí)間成本。
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí):為虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用生成虛擬角色的交互動(dòng)畫、引導(dǎo)動(dòng)畫等,提升用戶的沉浸感和體驗(yàn)效果。
項(xiàng)目官網(wǎng):https://fantasy-amap.github.io/fantasy-talking/
Github倉(cāng)庫(kù):https://github.com/Fantasy-AMAP/fantasy-talking
arXiv論文:https://arxiv.org/pdf/2504.04842