MagicTryOn:浙江大學(xué)和vivo推出的開源視頻虛擬試穿項(xiàng)目
MagicTryOn是什么?
MagicTryOn 是浙江大學(xué)和 vivo 合作推出的開源視頻虛擬試穿項(xiàng)目。它用視頻擴(kuò)散 Transformer 的 DiT 架構(gòu),讓服裝試穿看起來更真實(shí)、更穩(wěn)當(dāng)。這個項(xiàng)目靠全自注意力機(jī)制,保證視頻各幀連貫,不會像老方法那樣出現(xiàn)閃爍、抖動。它的主要功能有:精準(zhǔn)保留服裝細(xì)節(jié),通過多條件引導(dǎo)生成更真實(shí)的試穿效果,還用掩碼感知損失提升生成質(zhì)量。在多個數(shù)據(jù)集上,MagicTryOn 表現(xiàn)很好,視覺質(zhì)量和泛化能力都很強(qiáng)。
MagicTryOn技術(shù)原理
擴(kuò)散 Transformer(DiT)架構(gòu):該架構(gòu)模塊化設(shè)計(jì)允許更靈活地注入條件信息,多級服裝特征能有效整合到去噪過程中。其內(nèi)置的全自注意力機(jī)制可聯(lián)合建模視頻的時空一致性,捕捉幀內(nèi)局部細(xì)節(jié)和幀間動態(tài)變化。
粗到細(xì)的服裝保持策略:粗策略是在嵌入階段,將服裝標(biāo)記注入輸入標(biāo)記序列,擴(kuò)展旋轉(zhuǎn)位置編碼的網(wǎng)格大小,讓服裝標(biāo)記和輸入標(biāo)記共享一致的位置編碼;細(xì)策略是在去噪階段,引入語義引導(dǎo)交叉注意力和特征引導(dǎo)交叉注意力模塊,提供細(xì)粒度的服裝細(xì)節(jié)引導(dǎo)。
掩碼感知損失(Mask-Aware Loss):基于此損失,模型能更專注于服裝區(qū)域的生成,提高服裝區(qū)域的細(xì)節(jié)保真度和整體合成結(jié)果的真實(shí)感。
MagicTryOn主要功能
服裝細(xì)節(jié)保留:可精確模擬服裝的紋理、圖案和輪廓,在人物運(yùn)動時保持真實(shí)感和穩(wěn)定性。
時空一致性建模:確保視頻中各幀之間的連貫性,避免服裝閃爍和抖動。
多條件引導(dǎo):基于文本、圖像特征、服裝標(biāo)記和輪廓線標(biāo)記等多種條件,生成更真實(shí)、更細(xì)致的試穿效果。
MagicTryOn應(yīng)用場景
在線購物:用戶可在線試穿不同服裝。
時尚設(shè)計(jì):設(shè)計(jì)師能快速預(yù)覽服裝效果。
虛擬試衣間:為實(shí)體店提供虛擬試衣服務(wù)。
廣告與營銷:品牌可制作個性化試穿廣告。
游戲與娛樂:在游戲中實(shí)時試穿虛擬服裝。
項(xiàng)目鏈接
項(xiàng)目官網(wǎng):https://vivocameraresearch.github.io/magictryon/
GitHub 倉庫:https://github.com/vivoCameraResearch/Magic-TryOn/
arXiv 技術(shù)論文:https://arxiv.org/pdf/2505.21325
相關(guān)文章
- 用戶登錄