
Google Veo
Google Veo簡介
Google Veo是我們迄今為止最強大的視頻生成模型。它可以生成超過一分鐘的高質量 1080p 分辨率視頻,具有多種電影和視覺風格。
它準確地捕捉提示的細微差別和基調,并提供前所未有的創(chuàng)意控制水平——理解各種電影效果的提示,例如延時或風景的空中拍攝。
我們的視頻生成模型將有助于創(chuàng)建使每個人都可以進行視頻制作的工具。無論您是經驗豐富的電影制作人、有抱負的創(chuàng)作者,還是希望分享知識的教育家,Google Veo 都能為講故事、教育等帶來新的可能性。
在接下來的幾周內,其中一些功能將通過 Labs.google 上的新實驗工具 VideoFX 向選定的創(chuàng)作者開放。您現在可以加入候補名單。
將來,我們還將把 Google Veo 的一些功能引入 YouTube Shorts 和其他產品。
Google Veo功能特征:
更好地理解語言和視覺:
為了產生連貫的場景,生成視頻模型需要準確地解釋文本提示并將這些信息與相關的視覺參考相結合。
憑借對自然語言和視覺語義的深入理解,Google Veo 生成緊跟提示的視頻。它準確地捕捉短語中的細微差別和語氣,在復雜的場景中呈現復雜的細節(jié)。
電影制作控制:
當同時給出輸入視頻和編輯命令時,例如將皮劃艇添加到海岸線的航拍照片中,Google Veo 可以將此命令應用于初始視頻并創(chuàng)建新的編輯視頻。
此外,它還支持遮罩編輯,當您向視頻和文本提示添加遮罩區(qū)域時,可以更改視頻的特定區(qū)域。
Google Veo 還可以生成一個視頻,其中包含圖像作為輸入以及文本提示。通過提供參考圖像與文本提示相結合,它可以讓 Google Veo 生成遵循圖像風格和用戶提示說明的視頻。
該模型還能夠制作視頻剪輯并將其延長至 60 秒甚至更長。它可以通過單個提示來完成此操作,也可以通過提供一系列提示來完成此操作,這些提示一起講述一個故事。
視頻幀之間的一致性
保持視覺一致性對于視頻生成模型來說是一個挑戰(zhàn)。角色、物體甚至整個場景可能會在幀之間閃爍、跳躍或意外變形,從而破壞觀看體驗。
Google Veo 的尖端潛在擴散變壓器減少了這些不一致的出現,使角色、物體和風格保持在適當的位置,就像在現實生活中一樣。
基于多年的視頻生成研究
Google Veo 建立在多年的生成視頻模型工作基礎上,包括生成查詢網絡 (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,以及我們的 Transformer 架構和 Gemini。
為了幫助 Google Veo 更準確地理解和遵循提示,我們還在訓練數據中的每個視頻的字幕中添加了更多詳細信息。為了進一步提高性能,該模型使用高質量的壓縮視頻表示(也稱為潛在圖像),因此也更加高效。這些步驟提高了整體質量并減少了生成視頻所需的時間。