VACE:阿里通義Wan團隊推出的視頻生成與編輯統一模型
VACE是什么?
VACE(Video Creation and Editing)是由阿里巴巴通義實驗室推出的一站式ai視頻生成與編輯統一模型,可以通過統一的模型架構實現多種視頻創作和編輯任務。它能用一段文本或圖片生成視頻,也能對現有視頻進行風格轉換、修復或擴展。它把多種功能集成在一個模型里,操作方便,適合做創意視頻或修復老視頻。
VACE核心功能
視頻生成:
文本到視頻生成:根據文本提示生成視頻。
參考到視頻生成:結合文本和參考圖像生成視頻。
視頻擴展:基于現有視頻片段生成新的開頭或結尾。
視頻編輯:
視頻到視頻編輯:對輸入視頻進行整體風格轉換(如色彩化、風格化)。
遮罩視頻編輯:在指定區域進行編輯,如修復(Inpainting)、擴展(Outpainting)。
主體移除與重建:移除視頻中的特定主體并填充背景。
任務組合:
支持多種任務的靈活組合,例如參考生成+主體替換、姿態控制+視頻擴展。
VACE技術原理
Video Condition Unit(VCU):將文本、圖像、視頻和遮罩等多種模態輸入整合為統一的條件單元,支持多種任務的靈活組合。
Context Adapter結構:通過時間和空間維度的形式化表示,將不同任務的概念注入模型,使其能夠適應不同的任務需求。
擴散模型:基于擴散模型(如Diffusion Transformer)構建,通過逐步去噪的方式生成高質量的視頻內容。
VACE優勢
統一框架:將視頻生成和編輯任務整合到一個模型中,減少了任務切換的復雜性。
高效性:在多種任務上達到與特定任務模型相當的性能。
多樣性:支持多種任務組合,為視頻內容創作提供了更廣泛的應用可能性。
VACE應用場景
創意視頻生成:快速根據文本或圖片生成廣告、動畫等創意視頻內容。
視頻修復與增強:修復老視頻、填補畫面缺失部分或提升視頻風格。
高效視頻編輯:實現主體替換、動畫添加等復雜編輯任務。
視頻擴展:為短視頻生成新片段,延長視頻內容。
互動視頻創作:根據用戶輸入(如姿態、草圖)生成個性化視頻。
項目資源
項目官網:https://ali-vilab.github.io/VACE-Page/
GitHub倉庫:https://github.com/ali-vilab/VACE
技術論文:https://arxiv.org/pdf/2503.07598
相關文章
- 用戶登錄