Hotshot：可生成長達(dá)10秒720P視頻

Hotshot于2024-08-21發(fā)布在Ai產(chǎn)品

Hotshot：可生成長達(dá)10秒720p視頻的文生圖模型

Hotshot 推出了一種ai模型，可以生成分辨率為 1280 x 720 像素的 10 秒剪輯。

該初創(chuàng)公司于周一推出了該模型，也稱為 Hotshot，進(jìn)入公共預(yù)覽版。它加入了市場上不斷增長的人工智能視頻生成器的行列。 OpenAI、Runway ML Inc. 和許多其他初創(chuàng)公司同樣提供能夠根據(jù)用戶提示生成短片的模型。

Hotshot 去年推出了一款面向消費者的人工智能圖像生成應(yīng)用程序。據(jù)VentureBeat 報道，該公司似乎已經(jīng)關(guān)閉了該服務(wù)，以專注于新興的視頻生成領(lǐng)域。據(jù)報道，Hotshot 得到了 SV Angel、天使投資人 Lachy Groom 和 Reddit Inc. 聯(lián)合創(chuàng)始人 Alexis Ohanian 的支持。

該公司花了幾個月的時間開發(fā)了最新的視頻生成模型。作為該項目的一部分，它創(chuàng)建了三個不同的神經(jīng)網(wǎng)絡(luò)：核心 Hotshot 模型和另外兩個幫助準(zhǔn)備 AI 視頻生成器的訓(xùn)練數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)。

Hotshot的主要功能：

文本到視頻轉(zhuǎn)換：用戶可以輸入文本描述，如場景、角色或動作，Hotshot將自動生成3秒的視頻。
生成長達(dá)10秒的高清視頻：該工具能夠生成分辨率為1280 x 720像素的10秒剪輯。
生成GIF動畫：使用最新的圖像生成技術(shù)，Hotshot可以將復(fù)雜的文字描述轉(zhuǎn)換為逼真的GIF動畫。
無水印視頻輸出 :免費用戶生成的視頻沒有水印，為創(chuàng)作者提供了更多的自由。

在該計劃的第一階段，Hotshot 整理了一個包含 6 億個剪輯的存儲庫，并配有描述其內(nèi)容的字幕。它將這些剪輯與十億張圖像結(jié)合起來，創(chuàng)建視頻生成模型的訓(xùn)練數(shù)據(jù)集。 Hotshot 團(tuán)隊成員 John Mullan、Duncan Crawbuck、Chaitu Aluru 和 Aakash Sastry 表示：“我們知道我們希望聯(lián)合在圖像和視頻上訓(xùn)練模型，以便利用比視頻豐富得多的可公開訪問的圖像數(shù)據(jù)。”在一篇博文中解釋過。

在該項目的下一階段，該公司開發(fā)了一個人工智能模型，為其訓(xùn)練數(shù)據(jù)集中的視頻生成字幕。字幕可以幫助神經(jīng)網(wǎng)絡(luò)更好地理解正在訓(xùn)練的剪輯。人工智能因此收集到的額外知識提高了其輸出的質(zhì)量。

Hotshot發(fā)現(xiàn)市場上現(xiàn)有的字幕生成模型并不能滿足其要求。作為回應(yīng)，該公司采用了其中一個現(xiàn)有模型，并在包含 300,000 個帶有手動創(chuàng)建字幕的剪輯的訓(xùn)練數(shù)據(jù)集上對其進(jìn)行了定制。 “幾周后，我們就擁有了一個視頻字幕器，我們很高興用它來注釋我們數(shù)億個視頻樣本，”Hotshot 團(tuán)隊詳細(xì)介紹道。

該公司為支持視頻生成器的開發(fā)而構(gòu)建的第二個輔助人工智能模型是自動編碼器。這種算法可以獲取一段數(shù)據(jù)（在本例中為視頻），并刪除人工智能訓(xùn)練不需要的細(xì)節(jié)。刪除多余的信息可以降低存儲要求，從而降低成本。

在準(zhǔn)備好自動編碼器和字幕模型后，Hotshot 花了四個月的時間訓(xùn)練其 AI 視頻生成器。該公司使用了 Nvidia 公司的數(shù)千個 H100 圖形處理單元，在該項目期間累計了數(shù)百萬個處理小時。

Hotshot 的工程師應(yīng)用了多項優(yōu)化來降低訓(xùn)練運行的基礎(chǔ)設(shè)施要求。該公司以 bfloat16 格式存儲了項目中使用的許多文件，該格式可以將 32 位數(shù)據(jù)壓縮為 16 位，以節(jié)省存儲空間。此外，它還提前執(zhí)行了一些通常在訓(xùn)練過程中執(zhí)行的計算，以更好地利用 Nvidia 芯片的處理能力。

Hotshot 的新人工智能可作為其網(wǎng)站上免費視頻生成服務(wù)的一部分進(jìn)行訪問。該公司還計劃通過應(yīng)用程序編程接口向開發(fā)人員提供該模型。

Hotshot AI視頻生成模型目前已經(jīng)進(jìn)入了公開的 “預(yù)覽” 階段，用戶可以在 Hotshot 的官方網(wǎng)站上免費體驗這個模型，不過需要注意的是，每天的生成次數(shù)被限制在兩個視頻。

Hotshot官網(wǎng)地址：https://hotshot.co/