ViViD:使用擴散模型的虛擬試穿視頻
ViViD,阿里巴巴開發的視頻虛擬試穿技術,可以隨意替換視頻中人物的衣服,ViViD能夠生成自然、真實的虛擬試穿視頻,可以將服裝轉移到視頻中的人物身上,同時保持視頻其余部分不變。
ViViD演示網站:https://becauseimbatman0.github.io/ViViD
ViViD論文地址:https://arxiv.org/abs/2405.11794
隨著電商的快速發展,消費者通過在線淘寶商城京東商城等電商平臺可以方便地接觸到各種類型的服裝。然而,單純依賴電商網站上的服裝圖片,消費者很難想象服裝穿在自己身上的效果,雖然通過圖片換裝的技術比較成熟了,但是視頻換裝特別在與身體動作的交互方面技術還是很少見到。
虛擬試穿視頻通過將服裝轉移到目標人物上。將基于圖像的試穿技術以逐幀方式直接應用于視頻領域會導致時間不一致的結果,而之前基于視頻的試穿解決方案只能產生低視覺質量和模糊的結果。
中國科學技術大學和阿里巴巴集團的研究團隊聯合開發的ViViD視頻虛擬試穿技術的目的就是通過合成視頻來解決這一問題,讓消費者看到衣物穿在自己身上的真實效果。這個視頻框架利用擴散模型(Diffusion Models)來實現高質量和一致性的試穿視頻。
具體來說,我們設計了服裝編碼器來提取細粒度的服裝語義特征,引導模型捕獲服裝細節并通過提出的注意特征融合機制將它們注入到目標視頻中。為了確保時空一致性,我們引入了一個輕量級的姿勢編碼器來編碼姿勢信號,使模型能夠學習服裝和人體姿勢之間的相互作用,并將分層時間模塊插入到文本到圖像的穩定擴散模型中,以獲得更加連貫和逼真的效果視頻合成。
此外,我們收集了一個新的數據集,這是迄今為止視頻虛擬試穿任務中最大、服裝類型最多樣化、分辨率最高的數據集。大量的實驗表明,我們的方法能夠產生令人滿意的視頻試戴結果。數據集、代碼和權重將公開。
相關文章
- 用戶登錄