MagicTryOn:浙江大學和vivo推出的開源視頻虛擬試穿項目
MagicTryOn是什么?
MagicTryOn 是浙江大學和 vivo 合作推出的開源視頻虛擬試穿項目。它用視頻擴散 Transformer 的 DiT 架構,讓服裝試穿看起來更真實、更穩當。這個項目靠全自注意力機制,保證視頻各幀連貫,不會像老方法那樣出現閃爍、抖動。它的主要功能有:精準保留服裝細節,通過多條件引導生成更真實的試穿效果,還用掩碼感知損失提升生成質量。在多個數據集上,MagicTryOn 表現很好,視覺質量和泛化能力都很強。
MagicTryOn技術原理
擴散 Transformer(DiT)架構:該架構模塊化設計允許更靈活地注入條件信息,多級服裝特征能有效整合到去噪過程中。其內置的全自注意力機制可聯合建模視頻的時空一致性,捕捉幀內局部細節和幀間動態變化。
粗到細的服裝保持策略:粗策略是在嵌入階段,將服裝標記注入輸入標記序列,擴展旋轉位置編碼的網格大小,讓服裝標記和輸入標記共享一致的位置編碼;細策略是在去噪階段,引入語義引導交叉注意力和特征引導交叉注意力模塊,提供細粒度的服裝細節引導。
掩碼感知損失(Mask-Aware Loss):基于此損失,模型能更專注于服裝區域的生成,提高服裝區域的細節保真度和整體合成結果的真實感。
MagicTryOn主要功能
服裝細節保留:可精確模擬服裝的紋理、圖案和輪廓,在人物運動時保持真實感和穩定性。
時空一致性建模:確保視頻中各幀之間的連貫性,避免服裝閃爍和抖動。
多條件引導:基于文本、圖像特征、服裝標記和輪廓線標記等多種條件,生成更真實、更細致的試穿效果。
MagicTryOn應用場景
在線購物:用戶可在線試穿不同服裝。
時尚設計:設計師能快速預覽服裝效果。
虛擬試衣間:為實體店提供虛擬試衣服務。
廣告與營銷:品牌可制作個性化試穿廣告。
游戲與娛樂:在游戲中實時試穿虛擬服裝。
項目鏈接
項目官網:https://vivocameraresearch.github.io/magictryon/
GitHub 倉庫:https://github.com/vivoCameraResearch/Magic-TryOn/
arXiv 技術論文:https://arxiv.org/pdf/2505.21325