
UniVG
UniVG簡(jiǎn)介
百度UniVG是一種統(tǒng)一模式ai視頻生成系統(tǒng),能夠以文本和圖像的任意組合作為輸入條件進(jìn)行視頻生成。UniVG系統(tǒng)由百度團(tuán)隊(duì)開(kāi)發(fā),解決現(xiàn)有視頻生成模型在處理單一任務(wù)或單一目標(biāo)時(shí)的局限性。
UniVG開(kāi)源地址:https://univg-baidu.github.io/
UniVG主要功能和特點(diǎn):
高自由度視頻生成:使用多條件交叉注意力機(jī)制,根據(jù)輸入的圖像或文本生成與語(yǔ)義一致的視頻。
低自由度視頻生成:引入偏置高斯噪聲替代完全隨機(jī)的高斯噪聲,以更好地保留輸入條件的內(nèi)容。
多任務(wù)處理:系統(tǒng)內(nèi)的視頻生成模型被重新劃分為高自由度生成和低自由度生成兩類,分別適用于不同的生成任務(wù)。
擴(kuò)散模型:基于擴(kuò)散的視頻生成方法,在學(xué)術(shù)和工業(yè)界取得了顯著成功。
UniVG應(yīng)用場(chǎng)景和優(yōu)勢(shì):
靈活輸入:用戶可以靈活地輸入圖像和文本條件,單獨(dú)或組合使用,滿足實(shí)際應(yīng)用場(chǎng)景的需求。
高質(zhì)量輸出:在MSR-VTT數(shù)據(jù)庫(kù)上實(shí)現(xiàn)了最低的FVD(Fréchet Video Distance),在人類評(píng)估中超過(guò)了當(dāng)前開(kāi)源方法,并與現(xiàn)有閉源方法Gen2相當(dāng)。
多樣化任務(wù):支持文本到視頻、圖像到視頻以及文本和圖像結(jié)合到視頻等多種視頻生成任務(wù)。
UniVG作為一個(gè)強(qiáng)大的工具,它通過(guò)整合文本和圖像輸入,推動(dòng)了視頻生成技術(shù)向更靈活、更高質(zhì)量的方向發(fā)展,為內(nèi)容創(chuàng)作、廣告、娛樂(lè)等多個(gè)領(lǐng)域提供更大的推廣思路。