MagicTryOn:浙江大學和vivo推出的開源視頻虛擬試穿項目
MagicTryOn是什么?
MagicTryOn 是浙江大學和 vivo 合作推出的開源視頻虛擬試穿項目。它用視頻擴散 Transformer 的 DiT 架構(gòu),讓服裝試穿看起來更真實、更穩(wěn)當。這個項目靠全自注意力機制,保證視頻各幀連貫,不會像老方法那樣出現(xiàn)閃爍、抖動。它的主要功能有:精準保留服裝細節(jié),通過多條件引導(dǎo)生成更真實的試穿效果,還用掩碼感知損失提升生成質(zhì)量。在多個數(shù)據(jù)集上,MagicTryOn 表現(xiàn)很好,視覺質(zhì)量和泛化能力都很強。
MagicTryOn技術(shù)原理
擴散 Transformer(DiT)架構(gòu):該架構(gòu)模塊化設(shè)計允許更靈活地注入條件信息,多級服裝特征能有效整合到去噪過程中。其內(nèi)置的全自注意力機制可聯(lián)合建模視頻的時空一致性,捕捉幀內(nèi)局部細節(jié)和幀間動態(tài)變化。
粗到細的服裝保持策略:粗策略是在嵌入階段,將服裝標記注入輸入標記序列,擴展旋轉(zhuǎn)位置編碼的網(wǎng)格大小,讓服裝標記和輸入標記共享一致的位置編碼;細策略是在去噪階段,引入語義引導(dǎo)交叉注意力和特征引導(dǎo)交叉注意力模塊,提供細粒度的服裝細節(jié)引導(dǎo)。
掩碼感知損失(Mask-Aware Loss):基于此損失,模型能更專注于服裝區(qū)域的生成,提高服裝區(qū)域的細節(jié)保真度和整體合成結(jié)果的真實感。
MagicTryOn主要功能
服裝細節(jié)保留:可精確模擬服裝的紋理、圖案和輪廓,在人物運動時保持真實感和穩(wěn)定性。
時空一致性建模:確保視頻中各幀之間的連貫性,避免服裝閃爍和抖動。
多條件引導(dǎo):基于文本、圖像特征、服裝標記和輪廓線標記等多種條件,生成更真實、更細致的試穿效果。
MagicTryOn應(yīng)用場景
在線購物:用戶可在線試穿不同服裝。
時尚設(shè)計:設(shè)計師能快速預(yù)覽服裝效果。
虛擬試衣間:為實體店提供虛擬試衣服務(wù)。
廣告與營銷:品牌可制作個性化試穿廣告。
游戲與娛樂:在游戲中實時試穿虛擬服裝。
項目鏈接
項目官網(wǎng):https://vivocameraresearch.github.io/magictryon/
GitHub 倉庫:https://github.com/vivoCameraResearch/Magic-TryOn/
arXiv 技術(shù)論文:https://arxiv.org/pdf/2505.21325