首頁 > Ai資訊 > Ai產品

3DV-TON：一種基于擴散模型的視頻試穿生成框架

映技派于2025-05-02發(fā)布在Ai產品

3DV-TON是什么？

3DV-TON（Textured 3D-Guided Consistent Video Try-on via Diffusion Models）是一種基于擴散模型的新型視頻試穿技術，可以解決現(xiàn)有視頻試穿方法在處理復雜服裝圖案和多樣化人體姿態(tài)時難以生成高質量且時間一致結果的問題。

3DV-TON：一種基于擴散模型的視頻試穿生成框架.webp

3DV-TON核心技術

3D紋理引導：3DV-TON利用生成的動畫紋理3D網(wǎng)格作為幀級指導，確保服裝紋理與人體幾何細節(jié)（如褶皺和光影效果）的貼合。
視頻一致性：通過視頻擴散模型（如HunyuanVideo或Stable Video Diffusion），保持動態(tài)場景中多個幀的服裝時空一致性，避免閃爍或變形。
自適應生成流程：該技術采用自適應管道，首先選擇一個關鍵幀進行初始2D圖像試穿，然后重建并動畫化一個與原始視頻姿態(tài)同步的紋理3D網(wǎng)格。
矩形掩碼策略：引入魯棒的矩形掩碼策略，有效減輕了在動態(tài)人體和服裝運動過程中因服裝信息泄露導致的偽影傳播。

3DV-TON特點

高保真視覺效果：支持4K分辨率輸出，服裝紋理細節(jié)（如織物材質和圖案）逼真，適用于復雜動作和多角度展示。
多場景適配：支持從單張服裝圖像生成動態(tài)試穿視頻，適用于電子商務展示、虛擬換裝游戲和AR/VR應用。
用戶友好接口：提供API和可視化工具，允許開發(fā)者和設計師通過文本提示或圖像輸入快速生成試穿視頻。

3DV-TON：一種基于擴散模型的視頻試穿生成框架.webp

數(shù)據(jù)集

為了推動視頻試穿研究，3DV-TON團隊還推出了HR-VVT，這是一個包含130個視頻的高分辨率基準數(shù)據(jù)集，涵蓋多種服裝類型和場景。

3DV-TON方法

3DV-TON，利用生成的可動畫紋理 3D 網(wǎng)格作為顯式幀級指導，避免模型過度關注外觀保真度而忽視運動連貫性；采用自適應管道生成動態(tài) 3D 指導，先選關鍵幀進行初始 2D 圖像換裝，再重建并動畫化與原視頻姿態(tài)同步的紋理 3D 網(wǎng)格；引入魯棒的矩形掩蔽策略，減少動態(tài)人體和服裝運動中服裝信息泄漏導致的偽影傳播。