FantasyPortrait：單張靜態(tài)圖像生成多角色的情感化面部動畫

FantasyPortrait于2025-07-23發(fā)布在Ai產(chǎn)品

FantasyPortrait 是阿里巴巴高德地圖團隊和北京郵電大學聯(lián)合開發(fā)的框架，可以從單張靜態(tài)圖像生成多角色的情感化面部動畫。它通過隱式特征提取復雜表情，替代傳統(tǒng)幾何先驗，提升跨身份遷移能力，并利用掩碼交叉注意力機制避免多角色間的特征干擾。此外，它還支持多風格角色適配、零樣本動物動畫生成以及低資源音頻驅(qū)動等功能，適用于數(shù)字人、虛擬偶像、游戲 NPC 等領域，代碼已在 GitHub 開源。

核心功能

?隱式表情增強學習：通過隱式特征提取復雜表情，如唇部運動和情感表達，替代傳統(tǒng)顯式幾何先驗，提升跨身份遷移能力。

?掩碼交叉注意力機制：為多角色生成獨立表情控制區(qū)域，避免特征干擾，實現(xiàn)“一人一頻道”的協(xié)調(diào)動畫。

?多模態(tài)擴展性：支持文本和音頻驅(qū)動，例如用 Whisper 編碼音頻生成口型動畫，僅需少量數(shù)據(jù)微調(diào)即可適配多語言。

?數(shù)據(jù)集與評估基準：構(gòu)建了 Multi-Expr 數(shù)據(jù)集（3 萬 + 高質(zhì)量多角色視頻）和 ExprBench 基準，推動行業(yè)標準化。

方法設計方面：

?雙階段訓練策略：先通過 UNet 編碼表情特征，再通過擴散變換器解碼動畫序列。

?多角色控制模塊：通過特征掩碼隔離不同角色的驅(qū)動信號，保持時間維度的一致性。

數(shù)據(jù)集與評估基準：

?Multi-Expr 數(shù)據(jù)集：包含超過 50 萬幀的多視角表情數(shù)據(jù)，是首個多角色動畫數(shù)據(jù)集。

?ExprBench 評估基準：用于訓練和評估多角色肖像動畫。

實驗結(jié)果顯示：

?跨驅(qū)動重演任務：相比 StyleHEAT、PIRender 等方法，F(xiàn)ID 指標提升 41.7%。

?多角色動畫生成場景：用戶偏好率高達 83.5%，能準確生成眼部微顫、不對稱嘴角運動等細微表情。

應用場景包括：

?多角色動畫：支持用多個單人視頻或單個多人視頻驅(qū)動多個角色，生成詳細表情和逼真肖像動畫。

?多樣化角色風格：能生成動態(tài)、富有表現(xiàn)力且自然逼真的多樣化風格動畫。

?動物動畫：雖未在動物數(shù)據(jù)集上明確訓練，但在動物動畫任務上泛化能力強。

?音頻驅(qū)動肖像動畫：通過音頻編碼和基于 Transformer 的網(wǎng)絡將音頻特征映射到潛在驅(qū)動表示，實現(xiàn)音頻驅(qū)動的肖像動畫，少量訓練樣本下即可實現(xiàn)良好音視頻對齊。

關鍵問題解答：

技術突破有哪些？
答：一是增強表達隱式控制，通過隱式面部表示學習細粒度表情特征，提升嘴部動作和情感表達建模能力；二是多角色掩碼交叉注意力，獨創(chuàng)掩碼式交叉注意機制，實現(xiàn)多角色獨立控制與協(xié)同生成，解決角色間特征干擾問題。
功能特點有哪些？
答：包括多角色同步驅(qū)動，支持用單個或多個單人視頻、一段多人視頻同步驅(qū)動多個角色；多風格角色適配，能為不同藝術風格角色生成動態(tài)流暢、生動自然且風格統(tǒng)一的視頻；零樣本動物動畫，未經(jīng)專門訓練仍有卓越生成能力；低資源音頻驅(qū)動，可擴展為音頻驅(qū)動框架，利用 Whisper 編碼音頻，通過輕量級 Transformer 網(wǎng)絡將音頻特征映射到潛在驅(qū)動空間。
有哪些應用價值？
答：在影視制作中，能讓獨立動畫師輕松生成群戲表演；在游戲領域，可使 NPC 展現(xiàn)千人千面的微表情；在虛擬直播中，能讓多角色互動更鮮活自然。