FantasyPortrait:單張靜態圖像生成多角色的情感化面部動畫
FantasyPortrait 是阿里巴巴高德地圖團隊和北京郵電大學聯合開發的框架,可以從單張靜態圖像生成多角色的情感化面部動畫。它通過隱式特征提取復雜表情,替代傳統幾何先驗,提升跨身份遷移能力,并利用掩碼交叉注意力機制避免多角色間的特征干擾。此外,它還支持多風格角色適配、零樣本動物動畫生成以及低資源音頻驅動等功能,適用于數字人、虛擬偶像、游戲 NPC 等領域,代碼已在 GitHub 開源。
核心功能
?隱式表情增強學習:通過隱式特征提取復雜表情,如唇部運動和情感表達,替代傳統顯式幾何先驗,提升跨身份遷移能力。
?掩碼交叉注意力機制:為多角色生成獨立表情控制區域,避免特征干擾,實現“一人一頻道”的協調動畫。
?多模態擴展性:支持文本和音頻驅動,例如用 Whisper 編碼音頻生成口型動畫,僅需少量數據微調即可適配多語言。
?數據集與評估基準:構建了 Multi-Expr 數據集(3 萬 + 高質量多角色視頻)和 ExprBench 基準,推動行業標準化。
方法設計方面:
?雙階段訓練策略:先通過 UNet 編碼表情特征,再通過擴散變換器解碼動畫序列。
?多角色控制模塊:通過特征掩碼隔離不同角色的驅動信號,保持時間維度的一致性。
數據集與評估基準:
?Multi-Expr 數據集:包含超過 50 萬幀的多視角表情數據,是首個多角色動畫數據集。
?ExprBench 評估基準:用于訓練和評估多角色肖像動畫。
實驗結果顯示:
?跨驅動重演任務:相比 StyleHEAT、PIRender 等方法,FID 指標提升 41.7%。
?多角色動畫生成場景:用戶偏好率高達 83.5%,能準確生成眼部微顫、不對稱嘴角運動等細微表情。
應用場景包括:
?多角色動畫:支持用多個單人視頻或單個多人視頻驅動多個角色,生成詳細表情和逼真肖像動畫。
?多樣化角色風格:能生成動態、富有表現力且自然逼真的多樣化風格動畫。
?動物動畫:雖未在動物數據集上明確訓練,但在動物動畫任務上泛化能力強。
?音頻驅動肖像動畫:通過音頻編碼和基于 Transformer 的網絡將音頻特征映射到潛在驅動表示,實現音頻驅動的肖像動畫,少量訓練樣本下即可實現良好音視頻對齊。
關鍵問題解答:
技術突破有哪些?
答:一是增強表達隱式控制,通過隱式面部表示學習細粒度表情特征,提升嘴部動作和情感表達建模能力;二是多角色掩碼交叉注意力,獨創掩碼式交叉注意機制,實現多角色獨立控制與協同生成,解決角色間特征干擾問題。
功能特點有哪些?
答:包括多角色同步驅動,支持用單個或多個單人視頻、一段多人視頻同步驅動多個角色;多風格角色適配,能為不同藝術風格角色生成動態流暢、生動自然且風格統一的視頻;零樣本動物動畫,未經專門訓練仍有卓越生成能力;低資源音頻驅動,可擴展為音頻驅動框架,利用 Whisper 編碼音頻,通過輕量級 Transformer 網絡將音頻特征映射到潛在驅動空間。
有哪些應用價值?
答:在影視制作中,能讓獨立動畫師輕松生成群戲表演;在游戲領域,可使 NPC 展現千人千面的微表情;在虛擬直播中,能讓多角色互動更鮮活自然。
開源信息:
GitHub 倉庫:https://github.com/Fantasy-AMAP/fantasy-portrait
項目官網:https://fantasy-amap.github.io/fantasy-portrait/