Wan 2.1:通義萬(wàn)相推出的開(kāi)源視頻生成模型
通義萬(wàn)相團(tuán)隊(duì)推出Wan 2.1(萬(wàn)相2.1)這個(gè)最新的視頻生成模型,該模型在視頻生成的多個(gè)方面有了很大的進(jìn)步,像視頻質(zhì)量、復(fù)雜運(yùn)動(dòng)呈現(xiàn)、物理規(guī)律模擬以及中文漢字生成等。特別是在中文內(nèi)容生成方面,它是首個(gè)能夠有效控制中文文字特效生成的視頻模型,解決了之前模型在處理中文內(nèi)容上的不足。
Wan 2.1功能特點(diǎn)
復(fù)雜動(dòng)作展現(xiàn):Wan 2.1能穩(wěn)定地呈現(xiàn)出各種各樣復(fù)雜的人物肢體動(dòng)作,像旋轉(zhuǎn)、跳躍、翻滾這些動(dòng)作都可以很好地展現(xiàn)出來(lái),這讓視頻看起來(lái)更加生動(dòng)真實(shí)。
物理規(guī)律還原:它可以很逼真地把現(xiàn)實(shí)世界里的物理規(guī)律還原出來(lái),這樣生成的視頻就更真實(shí),也更符合大家的預(yù)期。
高質(zhì)量視頻生成:這個(gè)模型生成的視頻視覺(jué)效果更逼真,像素質(zhì)量也提高了。它能讓生成的內(nèi)容遵循物理規(guī)則,并且在執(zhí)行復(fù)雜指令的時(shí)候更精準(zhǔn)。
復(fù)雜運(yùn)動(dòng)處理:Wan 2.1在處理復(fù)雜運(yùn)動(dòng)場(chǎng)景方面特別厲害,比如花樣滑冰、游泳、跳水這些場(chǎng)景,它能讓動(dòng)作保持協(xié)調(diào)真實(shí),在復(fù)雜肢體動(dòng)作生成方面有了很明顯的提升。
多語(yǔ)言支持:Wan 2.1是第一個(gè)能同時(shí)支持中英文文字特效的視頻生成模型,這在創(chuàng)意產(chǎn)業(yè)里的應(yīng)用范圍就擴(kuò)大了很多,像廣告、短視頻制作這些領(lǐng)域,不管是國(guó)內(nèi)還是國(guó)際的需求都能滿足。
高效編解碼技術(shù):它采用了自己研發(fā)的VAE(變分自編碼器)和DiT(某種深度學(xué)習(xí)架構(gòu))技術(shù),靠著這個(gè)技術(shù),生成無(wú)限長(zhǎng)的1080P視頻成為了可能,而且效率和畫(huà)質(zhì)都提高了。
Wan 2.1技術(shù)架構(gòu)
Wan 2.1采用了自己研發(fā)的VAE(變分自編碼器)和DiT(Diffusion Transformer)架構(gòu),這讓它在時(shí)空上下文關(guān)系的建模能力上有了很大的提升。VAE會(huì)把視頻分成好多塊并且緩存中間特征,這樣就能高效地對(duì)超長(zhǎng)1080P視頻進(jìn)行編解碼,能生成無(wú)限長(zhǎng)度的高清視頻。DiT通過(guò)時(shí)空全注意力機(jī)制和參數(shù)共享機(jī)制,讓生成質(zhì)量和訓(xùn)練效率都有了顯著的提高。
Wan 2.1模型還能支持無(wú)限長(zhǎng)視頻生成,它用VAE把視頻拆分成多個(gè)部分并且緩存中間特征來(lái)實(shí)現(xiàn)高效編解碼,從而支持1080P長(zhǎng)度的視頻生成。而且它的生成質(zhì)量和訓(xùn)練效率靠時(shí)空全注意力機(jī)制和參數(shù)共享機(jī)制得到了顯著提升,這樣生成的效果就更精細(xì)穩(wěn)定。另外,用戶在設(shè)置參數(shù)的時(shí)候,可以選擇不同的預(yù)設(shè)模式,像簡(jiǎn)單模式和專(zhuān)業(yè)模式,來(lái)滿足不同的創(chuàng)作水平和項(xiàng)目需求。
Wan 2.1應(yīng)用場(chǎng)景
內(nèi)容創(chuàng)作:對(duì)于視頻創(chuàng)作者來(lái)說(shuō),Wan 2.1是個(gè)很強(qiáng)大的工具,能幫助他們創(chuàng)作出效果更豐富的視頻。
廣告制作:在營(yíng)銷(xiāo)和廣告方面,可以用它來(lái)制作很吸引人的宣傳視頻。
教育和培訓(xùn):在教育領(lǐng)域,它能通過(guò)生動(dòng)的示范視頻讓學(xué)習(xí)體驗(yàn)更好,提高信息傳遞的效率。
Wan 2.1使用方法
訪問(wèn)平臺(tái):訪問(wèn)http://tongyi.aliyun.com/wanxiang/注冊(cè)賬號(hào)然后登錄。
選擇功能:登錄后在平左欄找到文字作畫(huà),選擇Wan 2.1功能,這里可以看到不同的生成選項(xiàng)。
輸入提示詞:用戶可以輸入想要生成視頻的主題或者元素,中英文都可以輸入。
設(shè)置參數(shù):根據(jù)自己的需求,用戶能調(diào)整生成視頻的參數(shù),像視頻長(zhǎng)度、特效類(lèi)型、人物動(dòng)作這些。
生成與預(yù)覽:提交之后系統(tǒng)會(huì)生成視頻,用戶可以預(yù)覽,覺(jué)得滿意了就可以下載或者分享。
演示地址:https://tongyi.aliyun.com/wanxiang/