
Phenaki
Phenaki簡介
Phenaki 是什么?
Phenaki 是 Google Research 的一個項目,其目標是從開放域的文本描述中合成逼真的視頻??梢灾苯訌奈谋局猩砷L達數分鐘的視頻。
通過Phenaki,您還可以從靜止圖像和提示生成視頻。所提出的視頻編碼器-解碼器在時空質量和每個視頻的令牌數量方面優(yōu)于文獻中當前使用的所有每幀基線。
為了從文本生成視頻標記,Phenaki使用以預先計算的文本標記為條件的雙向掩碼轉換器。生成的視頻令牌隨后被去令牌化以創(chuàng)建實際視頻。
Phenaki 是視頻合成領域的一個突破,因為它可以處理開放域和時間變量提示,這與以前受數據可用性和計算成本限制的方法不同。Phenaki 還可以從靜止圖像和提示生成視頻,例如放大貓的眼睛或讓它打哈欠。Phenaki 有許多潛在的應用,例如娛樂、教育、講故事和藝術。
Phenaki能做什么?
Phenaki 優(yōu)點:
它可以生成可變長度和質量的視頻,最長可達兩分鐘
它可以處理開放域和時間變量提示,例如故事或描述
它利用大量的圖像-文本對語料庫和少量的視頻-文本示例來泛化視頻數據集之外