MAGREF:字節跳動發布的一款多主體視頻生成神器
MAGREF是字節跳動推出的一款多主體視頻生成工具,它可以讓用戶憑借一張參考圖像,生成高度一致的視頻,無論是單個主體還是多個主體的場景都能搞定。它通過掩碼引導和通道拼接機制,解決了傳統視頻生成中常見的身份混淆和動作不協調問題。MAGREF還能實現人物、物體和背景的多種組合,確保生成視頻的身份穩定性和結構一致性。
核心功能
多主體一致性生成:只需要一張參考圖,就能生成人物或物體高度一致的視頻,支持多人同框且不會出現“串臉”的情況。比如,你可以用它生成愛因斯坦騎摩托的視頻,或者牛頓揮筆作畫的視頻。人物的面貌、服飾在每一幀都能保持一致,不會越變越離譜。
多樣參考圖像處理:它通過掩碼引導和通道拼接機制,可以在不增加模型復雜度的情況下,處理多種參考圖像。無論是單人表演、多人互動,還是人物與物體、背景共同出現,都能生成穩定、協調的視頻。
多模態輸入與生成:根據不同的文字提示,它能實現“一圖千面”,無論輸入的是誰,來自哪個時代,風格是否抽象,它都能精準還原其特征,并根據文字指令生成不同的動作、環境和光影效果。比如,你可以輸入一張人像、一張物體圖、一張背景圖,再加上一段描述,它就能生成一個包含這三類元素的完整視頻,人物和物體的互動看起來很自然,場景也毫無違和感。
技術實現
數據處理流程:它采用了三階段的數據處理流程,來構建高質量、結構清晰的視頻訓練樣本。第一階段是從原始視頻中切分出語義一致的片段,過濾低質量樣本,并為每段生成結構化文本;第二階段是通過標簽提取和語義分割識別出視頻中的關鍵物體,并進行后處理以獲得精準遮罩;第三階段是檢測并分配視頻中人物的身份,篩選高質量的面部圖像用于參考圖構建,確保訓練過程中身份的一致性。
關鍵機制
區域感知動態遮罩:基于深度學習的注意力機制,讓模型具備“動態視覺感知”能力。通過語義分割算法精準識別視頻中的關鍵區域,并根據輸入提示實時調整不同主體的掩碼權重。這樣,即使參考圖數量和順序不同,系統也能保持結構一致、身份不串、關系明確。
像素級通道拼接:在圖像生成的底層技術中,它在通道維度(RGB通道 + 特征通道)進行信息融合。通過卷積神經網絡提取參考圖像的外觀特征,并在通道層面與生成場景的特征圖拼接,確保人物膚色、發型等細節與參考圖高度一致。同時,通過歸一化操作平衡不同場景的光照參數,避免主體與背景因明暗差異產生割裂感。它還支持同時輸入人物肖像、物體圖片、環境照片,通過通道級融合生成邏輯自洽的跨模態場景。
應用場景
影視制作:它能重構影視制作的前期籌備和特效流程。比如在劇本階段,可以用它生成動態故事板,導演可以實時調整場景色調、角色動作。它還能替代部分綠幕拍攝的需求,比如在歷史劇中,輸入少數士兵的參考圖,就能批量生成符合古代服飾、陣型的群體行軍視頻。
游戲開發:它能加速游戲內容的迭代和提升沉浸感。可以根據游戲角色建模圖,快速生成角色在不同劇情節點的表情、動作視頻;還能自動生成NPC在城鎮中的日常活動,無需人工逐幀調試動畫。
廣告營銷:它就像個性化內容的“量產引擎”,可以為同一商品生成幾百種使用場景視頻,滿足社交媒體碎片化傳播的需求。還可以基于明星肖像生成多版本廣告素材,避免真人拍攝的檔期限制和版權糾紛。
項目鏈接
項目主頁:https://magref-video.github.io/magref.github.io/
Github:https://github.com/MAGREF-Video/MAGREF
論文:https://arxiv.org/pdf/2505.23742