
Phenaki
Phenaki簡介
Phenaki 是什么?
Phenaki 是 Google Research 的一個項目,其目標是從開放域的文本描述中合成逼真的視頻。可以直接從文本中生成長達數(shù)分鐘的視頻。
通過Phenaki,您還可以從靜止圖像和提示生成視頻。所提出的視頻編碼器-解碼器在時空質(zhì)量和每個視頻的令牌數(shù)量方面優(yōu)于文獻中當前使用的所有每幀基線。
為了從文本生成視頻標記,Phenaki使用以預先計算的文本標記為條件的雙向掩碼轉(zhuǎn)換器。生成的視頻令牌隨后被去令牌化以創(chuàng)建實際視頻。
Phenaki 是視頻合成領(lǐng)域的一個突破,因為它可以處理開放域和時間變量提示,這與以前受數(shù)據(jù)可用性和計算成本限制的方法不同。Phenaki 還可以從靜止圖像和提示生成視頻,例如放大貓的眼睛或讓它打哈欠。Phenaki 有許多潛在的應(yīng)用,例如娛樂、教育、講故事和藝術(shù)。
Phenaki能做什么?
這段視頻火爆外網(wǎng),谷歌把AI視頻造假搞得太真太簡單了
Phenaki 優(yōu)點:
它可以生成可變長度和質(zhì)量的視頻,最長可達兩分鐘
它可以處理開放域和時間變量提示,例如故事或描述
它利用大量的圖像-文本對語料庫和少量的視頻-文本示例來泛化視頻數(shù)據(jù)集之外
與Phenaki相關(guān)工具
- 用戶登錄