
UniVG
UniVG簡介
百度UniVG是一種統(tǒng)一模式ai視頻生成系統(tǒng),能夠以文本和圖像的任意組合作為輸入條件進(jìn)行視頻生成。UniVG系統(tǒng)由百度團(tuán)隊開發(fā),解決現(xiàn)有視頻生成模型在處理單一任務(wù)或單一目標(biāo)時的局限性。
UniVG開源地址:https://univg-baidu.github.io/
UniVG主要功能和特點:
高自由度視頻生成:使用多條件交叉注意力機(jī)制,根據(jù)輸入的圖像或文本生成與語義一致的視頻。
低自由度視頻生成:引入偏置高斯噪聲替代完全隨機(jī)的高斯噪聲,以更好地保留輸入條件的內(nèi)容。
多任務(wù)處理:系統(tǒng)內(nèi)的視頻生成模型被重新劃分為高自由度生成和低自由度生成兩類,分別適用于不同的生成任務(wù)。
擴(kuò)散模型:基于擴(kuò)散的視頻生成方法,在學(xué)術(shù)和工業(yè)界取得了顯著成功。
UniVG應(yīng)用場景和優(yōu)勢:
靈活輸入:用戶可以靈活地輸入圖像和文本條件,單獨或組合使用,滿足實際應(yīng)用場景的需求。
高質(zhì)量輸出:在MSR-VTT數(shù)據(jù)庫上實現(xiàn)了最低的FVD(Fréchet Video Distance),在人類評估中超過了當(dāng)前開源方法,并與現(xiàn)有閉源方法Gen2相當(dāng)。
多樣化任務(wù):支持文本到視頻、圖像到視頻以及文本和圖像結(jié)合到視頻等多種視頻生成任務(wù)。
UniVG作為一個強(qiáng)大的工具,它通過整合文本和圖像輸入,推動了視頻生成技術(shù)向更靈活、更高質(zhì)量的方向發(fā)展,為內(nèi)容創(chuàng)作、廣告、娛樂等多個領(lǐng)域提供更大的推廣思路。