FantasyTalking:阿里巴巴一款從單張靜態肖像生成逼真的動態說話肖像生成工具
FantasyTalking是什么?
FantasyTalking 是阿里巴巴研發的一款虛擬角色動畫生成工具,可從單張靜態肖像生成逼真的動態說話肖像。它采用雙階段音頻-視覺對齊策略,確??谛团c語音精準同步,同時通過面部聚焦的交叉注意力模塊和運動強度調制模塊,生成自然、多樣化的動畫。只要應用在游戲、影視、虛擬現實上,可以快速生成高質量的虛擬角色動畫。
FantasyTalking 技術原理
雙階段音頻-視覺對齊策略:第一階段采用片段級訓練方案,對整個場景中的音頻驅動動態進行對齊,包括參考肖像、上下文對象和背景,建立連貫的全局運動;第二階段通過唇部追蹤掩碼在幀級別細化唇部運動,確保與音頻信號精確同步。
面部聚焦的交叉注意力模塊:取代常用的參考網絡,有效保持視頻中面部的一致性。
運動強度調制模塊:明確控制表情和身體運動的強度,使肖像的運動不僅限于唇部動作,還能實現更自然、多樣化的動畫。
FantasyTalking 主要功能
口型同步:能夠準確識別并同步虛擬角色的口型與輸入語音,使角色說話時的口型與語音內容完全一致。
面部動作生成:根據語音內容和情感信息,生成眨眼、皺眉、微笑等豐富的面部動作。
全身動作生成:根據場景和情節需要,生成行走、奔跑、跳躍等全身動作。
FantasyTalking核心優勢
高度逼真:利用先進的人工智能算法和深度學習技術,生成的虛擬角色動畫在外觀、動作和表情上都與真實人類無異。
靈活易用:提供簡潔直觀的用戶界面和豐富的 API 接口,支持多種輸入格式和輸出格式,方便用戶快速上手并集成到自己的項目中。
高效穩定:采用優化的算法和高效的計算架構,能在短時間內生成高質量的虛擬角色動畫,同時保證系統的穩定性和可靠性。
FantasyTalking 應用場景
游戲開發:可用于生成游戲角色的對話動畫、戰斗動畫等,提升游戲的視覺效果和互動性。
影視制作:幫助制作團隊快速生成高質量的虛擬角色表演動畫、特效動畫等,降低制作成本和時間成本。
虛擬現實和增強現實:為虛擬現實和增強現實應用生成虛擬角色的交互動畫、引導動畫等,提升用戶的沉浸感和體驗效果。
項目官網:https://fantasy-amap.github.io/fantasy-talking/
Github倉庫:https://github.com/Fantasy-AMAP/fantasy-talking
arXiv論文:https://arxiv.org/pdf/2504.04842