Hotshot:可生成長達10秒720P視頻
Hotshot 推出了一種ai模型,可以生成分辨率為 1280 x 720 像素的 10 秒剪輯。
該初創公司于周一推出了該模型,也稱為 Hotshot,進入公共預覽版。它加入了市場上不斷增長的人工智能視頻生成器的行列。 OpenAI、Runway ML Inc. 和許多其他初創公司同樣提供能夠根據用戶提示生成短片的模型。
Hotshot 去年推出了一款面向消費者的人工智能圖像生成應用程序。據VentureBeat 報道,該公司似乎已經關閉了該服務,以專注于新興的視頻生成領域。據報道,Hotshot 得到了 SV Angel、天使投資人 Lachy Groom 和 Reddit Inc. 聯合創始人 Alexis Ohanian 的支持。
該公司花了幾個月的時間開發了最新的視頻生成模型。作為該項目的一部分,它創建了三個不同的神經網絡:核心 Hotshot 模型和另外兩個幫助準備 AI 視頻生成器的訓練數據集的神經網絡。
Hotshot的主要功能:
文本到視頻轉換:用戶可以輸入文本描述,如場景、角色或動作,Hotshot將自動生成3秒的視頻。
生成長達10秒的高清視頻:該工具能夠生成分辨率為1280 x 720像素的10秒剪輯。
生成GIF動畫:使用最新的圖像生成技術,Hotshot可以將復雜的文字描述轉換為逼真的GIF動畫。
無水印視頻輸出 :免費用戶生成的視頻沒有水印,為創作者提供了更多的自由。
在該計劃的第一階段,Hotshot 整理了一個包含 6 億個剪輯的存儲庫,并配有描述其內容的字幕。它將這些剪輯與十億張圖像結合起來,創建視頻生成模型的訓練數據集。 Hotshot 團隊成員 John Mullan、Duncan Crawbuck、Chaitu Aluru 和 Aakash Sastry 表示:“我們知道我們希望聯合在圖像和視頻上訓練模型,以便利用比視頻豐富得多的可公開訪問的圖像數據?!痹谝黄┪闹薪忉屵^。
在該項目的下一階段,該公司開發了一個人工智能模型,為其訓練數據集中的視頻生成字幕。字幕可以幫助神經網絡更好地理解正在訓練的剪輯。人工智能因此收集到的額外知識提高了其輸出的質量。
Hotshot發現市場上現有的字幕生成模型并不能滿足其要求。作為回應,該公司采用了其中一個現有模型,并在包含 300,000 個帶有手動創建字幕的剪輯的訓練數據集上對其進行了定制。 “幾周后,我們就擁有了一個視頻字幕器,我們很高興用它來注釋我們數億個視頻樣本,”Hotshot 團隊詳細介紹道。
該公司為支持視頻生成器的開發而構建的第二個輔助人工智能模型是自動編碼器。這種算法可以獲取一段數據(在本例中為視頻),并刪除人工智能訓練不需要的細節。刪除多余的信息可以降低存儲要求,從而降低成本。
在準備好自動編碼器和字幕模型后,Hotshot 花了四個月的時間訓練其 AI 視頻生成器。該公司使用了 Nvidia 公司的數千個 H100 圖形處理單元,在該項目期間累計了數百萬個處理小時。
Hotshot 的工程師應用了多項優化來降低訓練運行的基礎設施要求。該公司以 bfloat16 格式存儲了項目中使用的許多文件,該格式可以將 32 位數據壓縮為 16 位,以節省存儲空間。此外,它還提前執行了一些通常在訓練過程中執行的計算,以更好地利用 Nvidia 芯片的處理能力。
Hotshot 的新人工智能可作為其網站上免費視頻生成服務的一部分進行訪問。該公司還計劃通過應用程序編程接口向開發人員提供該模型。
Hotshot AI視頻生成模型目前已經進入了公開的 “預覽” 階段,用戶可以在 Hotshot 的官方網站上免費體驗這個模型,不過需要注意的是,每天的生成次數被限制在兩個視頻。
Hotshot官網地址:https://hotshot.co/