DreamActor-M1:字節跳動推出的一張人物照片替換到一段動作視頻里的框架
DreamActor-M1是什么?
DreamActor-M1是字節跳動推出的一款基于擴散變換器(DiT)的人類圖像動畫框架,類似Runway的Act one,給定一張參考圖像, DreamActor - M1可以模仿從視頻中捕捉到的人類行為,制作多個尺度(從肖像到全身動畫)的高度表現力和逼真的視頻,也解決了其他框架表情和動作做得不夠細膩,長視頻容易細節會對不上,穿幫的問題,支持各種動作風格,表現均優于 Act-One、Animate Everyone 和 SkyReels-A1。
DreamActor-M1核心功能
靜態照片轉動態影像:通過結合一張靜態照片和一段參考動作視頻,將照片中的人物無縫替換到視頻場景中,生成表情細膩、動作自然且畫質高清的動態影像。
精細控制:采用混合引導機制,結合隱式面部表示、3D頭部球體和3D身體骨架等控制信號,實現對人物面部表情和身體動作的精準控制。
靈活的運動轉移:支持僅傳遞部分運動,例如面部表情和頭部運動。
面部動畫支持:可擴展至音頻驅動的面部動畫,實現多語言的口型同步。
形狀感知動畫:通過骨骼長度調整技術,實現形狀適應的動畫生成。
多樣化風格支持:對各種角色和運動風格具有魯棒性。
多種視角支持:能在不同的頭部姿態下生成動畫結果。
DreamActor-M1技術原理
混合引導機制:結合隱式面部表示、3D頭部球體和3D身體骨架等控制信號,確保生成的動畫在細節上高度逼真,同時保持整體的協調性和流暢性。
多尺度適應性:通過逐步訓練策略,能處理各種身體姿勢和不同分辨率的圖像,支持從肖像到全身視圖的轉換。
長期時間一致性:通過整合連續幀的運動模式和視覺參考,確保在復雜動作中未觀察區域的時間一致性。
面部動畫與語音支持:支持音頻驅動的面部動畫,能實現多語言的口型同步。
DreamActor-M1應用場景
影視制作:用于生成虛擬角色的動畫。
廣告行業:創建動態的人物廣告。
視頻游戲:生成游戲中的角色動畫。
虛擬主播:為虛擬主播提供更自然、更逼真的動畫效果。
教育與培訓:創建動態的教學視頻,使人物能夠進行各種動作和表情。
社交媒體:生成個性化的動態頭像或短視頻。
項目鏈接
項目官網:https://grisoon.github.io/DreamActor-M1/
arXiv技術論文:https://arxiv.org/pdf/2504.01724