3DV-TON:一種基于擴(kuò)散模型的視頻試穿生成框架
3DV-TON是什么?
3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是一種基于擴(kuò)散模型的新型視頻試穿技術(shù),可以解決現(xiàn)有視頻試穿方法在處理復(fù)雜服裝圖案和多樣化人體姿態(tài)時難以生成高質(zhì)量且時間一致結(jié)果的問題。
3DV-TON核心技術(shù)
3D紋理引導(dǎo):3DV-TON利用生成的動畫紋理3D網(wǎng)格作為幀級指導(dǎo),確保服裝紋理與人體幾何細(xì)節(jié)(如褶皺和光影效果)的貼合。
視頻一致性:通過視頻擴(kuò)散模型(如HunyuanVideo或Stable Video Diffusion),保持動態(tài)場景中多個幀的服裝時空一致性,避免閃爍或變形。
自適應(yīng)生成流程:該技術(shù)采用自適應(yīng)管道,首先選擇一個關(guān)鍵幀進(jìn)行初始2D圖像試穿,然后重建并動畫化一個與原始視頻姿態(tài)同步的紋理3D網(wǎng)格。
矩形掩碼策略:引入魯棒的矩形掩碼策略,有效減輕了在動態(tài)人體和服裝運(yùn)動過程中因服裝信息泄露導(dǎo)致的偽影傳播。
3DV-TON特點
高保真視覺效果:支持4K分辨率輸出,服裝紋理細(xì)節(jié)(如織物材質(zhì)和圖案)逼真,適用于復(fù)雜動作和多角度展示。
多場景適配:支持從單張服裝圖像生成動態(tài)試穿視頻,適用于電子商務(wù)展示、虛擬換裝游戲和AR/VR應(yīng)用。
用戶友好接口:提供API和可視化工具,允許開發(fā)者和設(shè)計師通過文本提示或圖像輸入快速生成試穿視頻。
數(shù)據(jù)集
為了推動視頻試穿研究,3DV-TON團(tuán)隊還推出了HR-VVT,這是一個包含130個視頻的高分辨率基準(zhǔn)數(shù)據(jù)集,涵蓋多種服裝類型和場景。
3DV-TON方法
3DV-TON,利用生成的可動畫紋理 3D 網(wǎng)格作為顯式幀級指導(dǎo),避免模型過度關(guān)注外觀保真度而忽視運(yùn)動連貫性;采用自適應(yīng)管道生成動態(tài) 3D 指導(dǎo),先選關(guān)鍵幀進(jìn)行初始 2D 圖像換裝,再重建并動畫化與原視頻姿態(tài)同步的紋理 3D 網(wǎng)格;引入魯棒的矩形掩蔽策略,減少動態(tài)人體和服裝運(yùn)動中服裝信息泄漏導(dǎo)致的偽影傳播。
3DV-TON應(yīng)用場景
電子商務(wù):為電商平臺(如Shopify和Amazon)生成動態(tài)服裝試穿視頻。
虛擬時尚和元宇宙:支持VR/AR試穿體驗,在虛擬環(huán)境中試穿數(shù)字服裝。
影視動畫:生成數(shù)字角色的真實服裝動畫,降低CG制作成本。
個性化定制:結(jié)合用戶上傳的身體數(shù)據(jù)和服裝圖像,生成個性化試穿視頻。
項目主頁:https://2y7c3.github.io/3DV-TON/
論文技術(shù):https://2y7c3.github.io/pdfs/3dvton.pdf