DreamActor-H1:生成人物講解商品的視頻,可用于生成帶貨視頻
DreamActor-H1是字節跳動在2025年6月推出的一款視頻生成框架,它基于擴散變換器(DiT)技術,主要面向電商和數字營銷領域,可用于生成帶貨視頻。
這個框架可以根據人體和產品圖像配對,生成高質量的人與產品演示視頻。它在大規模混合數據集上經過多類別增強訓練,在保留人與產品的身份信息以及生成符合物理規律的演示動作方面,優于現有方法,適合用于個性化電子商務廣告和互動媒體。它借助3D身體網格模板和產品邊界框提供精準的運動指導,結合VAE編碼的外觀指導、結構化文本編碼的類別級語義,以及參考注意力、對象注意力等機制,解決了現有框架在身份保留和空間關系理解上的難題。
DreamActor-H1的核心優勢:
人 - 物動態對齊:它能自動把手勢和商品位置匹配起來。比如在演示“拿起化妝品”時,手指和瓶身的接觸點能自然貼合,不會出現穿模或者偏移的情況。而且還支持用3D人體網格模板和產品邊界框一起指導,保證動作符合像重力、握持角度這些物理規律。
多維度細節保真:在保持人物身份一致性上,能保留人物的發型、膚色等特征;對于商品,能高度還原,精準呈現材質紋理、Logo標識等細節。
語義增強三維連貫性:結合品類級的文本描述,像“旋轉展示口紅”,能讓微小旋轉時的畫面更流暢,避免商品抖動或者形變。
技術原理:
數據處理階段:視覺語言建模(VLM)會對文本指令進行解析,比如“手持手機翻轉”。然后通過姿態估計生成人體骨架,結合商品邊界框構建空間關系,以此來提取運動特征。
模型架構設計:全局注意力負責控制整體畫面的時序連貫性;參考注意力會注入人物或商品參考圖的特征;物體注意力專門處理商品的潛在特征,保證細節不丟失。三重注意力機制的擴散變換器(DiT)基于70億參數的基礎模型Seaweed - 7B,通過掩碼交叉注意力來融合人與物的信息。
推理優化:它會動態檢索預定義的動作模板庫,調整物體框的縮放比例,比如小尺寸商品的框體可以放大。
DreamActor-H1的應用場景:
電商直播:可以自動生成虛擬主播手持商品的演示視頻,這樣能降低直播成本,提高直播效率。
廣告營銷:能低成本制作多角度的產品使用動畫,比如旋轉展示鞋款,吸引消費者的注意力。
DreamActor-H1局限性:
商品限制:目前只能支持中小型物品,大型家電等沒辦法處理。
動作模板依賴:需要預先定義動作,像“拾取桌上物品”,而且要依賴初始人物姿態的匹配。
動態瑕疵:在快速運動時,商品的紋理可能會出現閃爍。
使用DreamActor-H1生成帶貨視頻流程:
素材準備:準備一張人物圖和一張產品圖。人物圖建議選正面半身照,分辨率要大于800 * 800,這樣才能保證生成的視頻里人物特征清晰。產品圖要能清晰展示商品的各個細節,像商標、紋理等。
文本指令輸入:根據帶貨的需求,輸入相關的品類級文本描述,例如“手持手機翻轉”“展示口紅細節”等,給視頻生成提供具體的動作和展示要求。
視頻生成:把準備好的素材和文本指令輸入到DreamActor-H1系統里,系統會基于多階段協同架構和混合注意力機制來處理。在數據處理階段,視覺語言建模(VLM)解析文本指令,運動特征提取模塊通過姿態估計生成人體骨架并結合商品邊界框構建空間關系;在模型架構中,全局注意力、參考注意力和物體注意力協同工作,最后生成高保真的人機交互演示視頻。
項目地址如下:
項目主頁:https://submit2025-dream.github.io/DreamActor-H1/
技術論文:https://arxiv.org/abs/2506.10568