阿里巴巴開源萬相Wan2.1 - VACE視頻模型
2025年5月14號晚上,阿里巴巴旗下的通義萬相團(tuán)隊(duì)把萬相Wan2.1 - VACE的視頻編輯與生成統(tǒng)一模型開源,該ai模型不僅可以直接“生成”視頻,還能對已有視頻進(jìn)行各種復(fù)雜的編輯和再創(chuàng)作處理。而且,只需一個(gè)模型就能完成所有這些工作,你可以精準(zhǔn)控制視頻中角色的動(dòng)作、姿態(tài)、方向、構(gòu)圖布局、運(yùn)動(dòng)軌跡、風(fēng)格風(fēng)貌等。
核心優(yōu)勢
萬相Wan2.1 - VACE是現(xiàn)在視頻生成和編輯功能最全的解決方案。它一個(gè)模型架構(gòu)就能搞定好多視頻處理任務(wù),像用文字生成視頻、參考圖片生成視頻、給視頻重繪、局部修改視頻內(nèi)容、擴(kuò)展視頻背景,還能延長時(shí)間。而且它還支持多任務(wù)一起做,用戶在一個(gè)流程里就能完成復(fù)雜的視頻編輯,創(chuàng)作過程簡單多了。
另外,Wan2.1-VACE還有一大優(yōu)勢是允許用戶可以將多個(gè)基礎(chǔ)功能自由組合,靈活搭配,形成復(fù)雜應(yīng)用場景。
這個(gè)模型有1.3B和14B兩種參數(shù)規(guī)模。1.3B這種輕量級的版本,用消費(fèi)級顯卡就能流暢運(yùn)行,還能輸出480P的視頻;14B的滿血版能支持更高分辨率,像720P,效果更好。
技術(shù)創(chuàng)新
這個(gè)模型引入了全新的視頻條件單元VCU,把文生視頻、參考圖生視頻、視頻生視頻和局部視頻生視頻這些視頻生成和編輯任務(wù)統(tǒng)一起來了。VCU能將各種輸入,像文字、圖片等,轉(zhuǎn)化成文本、幀序列和Mask序列,為多任務(wù)自由組合打下了基礎(chǔ)。
它還對VCU輸入的幀序列進(jìn)行處理,把它們分成可變序列和不可變序列分別編碼,解決了token序列化的問題,讓多模態(tài)輸入的處理效率更高了。
實(shí)際應(yīng)用
用這個(gè)模型能把一幅豎版的《蒙娜麗莎》靜態(tài)圖片,變成橫版動(dòng)態(tài)視頻,還能給人物加上眼鏡,一下就完成了畫幅擴(kuò)展、時(shí)長延展和圖像參考這三項(xiàng)任務(wù),給創(chuàng)作者的創(chuàng)意發(fā)揮提供了很大空間。
下載途徑
開發(fā)者可以在GitHub、Huggingface以及魔搭社區(qū)這幾個(gè)平臺下載和體驗(yàn)這個(gè)模型。
GitHub:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區(qū):https://www.modelscope.cn/organization/Wan-AI?tab=model
Wan2.1 - VACE開源,讓視頻生成技術(shù)從只能做單個(gè)任務(wù),向多個(gè)任務(wù)組合發(fā)展前進(jìn)了一大步,給視頻創(chuàng)作者提供了更加便捷和高效的工具。
相關(guān)文章
- 用戶登錄