
Goku
Goku簡介
Goku是由香港大學(xué)與字節(jié)跳動聯(lián)合研發(fā)的多模態(tài)視頻生成模型,基于校正流Transformer架構(gòu)(Rectified Flow Transformer) ,專為圖像與視頻的聯(lián)合生成優(yōu)化。該模型于2025年2月正式發(fā)布技術(shù)報(bào)告,其核心目標(biāo)是通過低成本、高效率的生成能力,革新數(shù)字內(nèi)容創(chuàng)作流程,尤其在廣告營銷、電商展示等領(lǐng)域展現(xiàn)出顛覆性潛力。
Goku功能特征:
多模態(tài)生成能力
文本到視頻(Text-to-Video) :通過自然語言描述直接生成動態(tài)視頻,支持復(fù)雜場景與人物交互,例如根據(jù)“夏日海灘飲品廣告”生成包含人物動作、產(chǎn)品特寫的完整短片。
圖像到視頻(Image-to-Video) :以單張商品圖或場景圖為輸入,生成動態(tài)展示視頻,例如將靜態(tài)服裝圖轉(zhuǎn)化為模特試穿效果的連貫鏡頭。
文本到圖像(Text-to-Image) :生成高分辨率圖像,支持細(xì)節(jié)控制,如光照、材質(zhì)等參數(shù)調(diào)整。
技術(shù)架構(gòu)創(chuàng)新
校正流框架:Goku采用了校正流(Rectified Flow)Transformer,結(jié)合圖像-視頻聯(lián)合VAE(變分自編碼器),以及全注意力Transformer,這使得模型能夠統(tǒng)一處理圖像和視頻生成任務(wù),通過優(yōu)化生成路徑的連續(xù)性,減少傳統(tǒng)擴(kuò)散模型的迭代步驟,提升生成效率。
多階段訓(xùn)練策略:通過圖文語義對齊預(yù)訓(xùn)練、圖像-視頻聯(lián)合訓(xùn)練以及針對不同模態(tài)的微調(diào),分階段提升模型能力,初期聚焦基礎(chǔ)特征學(xué)習(xí),后期強(qiáng)化時(shí)序連貫性與細(xì)節(jié)精度。
大規(guī)模數(shù)據(jù)集支撐:研究人員構(gòu)建了約3600萬視頻和1.6億圖像的大規(guī)模數(shù)據(jù)集,并采用了多種數(shù)據(jù)過濾和增強(qiáng)技術(shù)來提高數(shù)據(jù)質(zhì)量。
成本與性能優(yōu)勢
Goku+商業(yè)版本:作為視頻廣告專用基礎(chǔ)模型,其生成成本僅為傳統(tǒng)拍攝制作的1/100,且支持個(gè)性化定制(如品牌Logo植入、多語言配音等)。
SOTA性能:在MSR-VTT和UCF-101等基準(zhǔn)測試中,文本到視頻生成任務(wù)刷新行業(yè)記錄,視頻連貫性與語義對齊度領(lǐng)先同類模型20%以上。
Goku使用方法:
模型選擇與部署
提供三種規(guī)模模型:輕量版(移動端適配)、標(biāo)準(zhǔn)版(通用場景)、企業(yè)版(支持4K分辨率與長視頻生成)。
支持云端API調(diào)用與本地化部署,企業(yè)用戶可通過字節(jié)跳動火山引擎平臺接入。
輸入與參數(shù)配置
輸入格式:文本提示需遵循結(jié)構(gòu)化描述(如“主體-動作-場景-風(fēng)格”),圖像輸入支持PNG/JPG及透明背景格式。
控制參數(shù):包括視頻時(shí)長(默認(rèn)5秒,可擴(kuò)展至60秒)、幀率(24/30/60fps)、分辨率(最高4096×2160)及風(fēng)格化濾鏡(如“寫實(shí)風(fēng)”“卡通渲染”)。
交互式編輯
支持生成后逐幀微調(diào),例如修改局部動作、替換背景元素,或通過文本指令追加特效(如“添加雨滴效果”)。
Goku產(chǎn)品應(yīng)用:
電商與廣告營銷
商品動態(tài)展示:僅需一張產(chǎn)品圖,即可生成包含虛擬主播講解、多角度展示的廣告視頻,適用于淘寶、抖音等平臺的商品詳情頁。
低成本本地化廣告:針對不同地區(qū)市場,快速生成適配語言與文化背景的廣告內(nèi)容,顯著降低跨國營銷成本。
社交媒體內(nèi)容創(chuàng)作
吃播/教程視頻生成:輸入食材列表與步驟描述,自動生成烹飪過程視頻,支持添加互動字幕與背景音樂。
UGC輔助工具:為創(chuàng)作者提供“文案轉(zhuǎn)視頻”功能,將圖文內(nèi)容自動轉(zhuǎn)化為短視頻,提升內(nèi)容產(chǎn)出效率。
影視與游戲預(yù)制作
分鏡預(yù)覽:通過文本快速生成劇情分鏡,輔助導(dǎo)演與編劇可視化敘事節(jié)奏。
NPC動作庫構(gòu)建:為游戲開發(fā)提供批量角色動作生成,減少手動建模工作量。
Goku的發(fā)布標(biāo)志著ai視頻生成從“輔助工具”向“生產(chǎn)級應(yīng)用”的跨越。其低成本特性已吸引多家國際快消品牌進(jìn)行試點(diǎn)合作,據(jù)估算可減少80%的廣告制作周期。未來,結(jié)合實(shí)時(shí)渲染與3D建模技術(shù),Goku有望進(jìn)一步拓展至虛擬現(xiàn)實(shí)、元宇宙等場景。當(dāng)前技術(shù)局限主要體現(xiàn)為長視頻的情節(jié)邏輯控制,但團(tuán)隊(duì)表示將通過引入強(qiáng)化學(xué)習(xí)機(jī)制持續(xù)優(yōu)化。
GitHub:https://github.com/Saiyan-World/goku
項(xiàng)目地址:https://saiyan-world.github.io/goku/
論文:https://arxiv.org/abs/2502.04896