
Goku
Goku簡介
Goku是由香港大學與字節跳動聯合研發的多模態視頻生成模型,基于校正流Transformer架構(Rectified Flow Transformer) ,專為圖像與視頻的聯合生成優化。該模型于2025年2月正式發布技術報告,其核心目標是通過低成本、高效率的生成能力,革新數字內容創作流程,尤其在廣告營銷、電商展示等領域展現出顛覆性潛力。
Goku功能特征:
多模態生成能力
文本到視頻(Text-to-Video) :通過自然語言描述直接生成動態視頻,支持復雜場景與人物交互,例如根據“夏日海灘飲品廣告”生成包含人物動作、產品特寫的完整短片。
圖像到視頻(Image-to-Video) :以單張商品圖或場景圖為輸入,生成動態展示視頻,例如將靜態服裝圖轉化為模特試穿效果的連貫鏡頭。
文本到圖像(Text-to-Image) :生成高分辨率圖像,支持細節控制,如光照、材質等參數調整。
技術架構創新
校正流框架:Goku采用了校正流(Rectified Flow)Transformer,結合圖像-視頻聯合VAE(變分自編碼器),以及全注意力Transformer,這使得模型能夠統一處理圖像和視頻生成任務,通過優化生成路徑的連續性,減少傳統擴散模型的迭代步驟,提升生成效率。
多階段訓練策略:通過圖文語義對齊預訓練、圖像-視頻聯合訓練以及針對不同模態的微調,分階段提升模型能力,初期聚焦基礎特征學習,后期強化時序連貫性與細節精度。
大規模數據集支撐:研究人員構建了約3600萬視頻和1.6億圖像的大規模數據集,并采用了多種數據過濾和增強技術來提高數據質量。
成本與性能優勢
Goku+商業版本:作為視頻廣告專用基礎模型,其生成成本僅為傳統拍攝制作的1/100,且支持個性化定制(如品牌Logo植入、多語言配音等)。
SOTA性能:在MSR-VTT和UCF-101等基準測試中,文本到視頻生成任務刷新行業記錄,視頻連貫性與語義對齊度領先同類模型20%以上。
Goku使用方法:
模型選擇與部署
提供三種規模模型:輕量版(移動端適配)、標準版(通用場景)、企業版(支持4K分辨率與長視頻生成)。
支持云端API調用與本地化部署,企業用戶可通過字節跳動火山引擎平臺接入。
輸入與參數配置
輸入格式:文本提示需遵循結構化描述(如“主體-動作-場景-風格”),圖像輸入支持PNG/JPG及透明背景格式。
控制參數:包括視頻時長(默認5秒,可擴展至60秒)、幀率(24/30/60fps)、分辨率(最高4096×2160)及風格化濾鏡(如“寫實風”“卡通渲染”)。
交互式編輯
支持生成后逐幀微調,例如修改局部動作、替換背景元素,或通過文本指令追加特效(如“添加雨滴效果”)。
Goku產品應用:
電商與廣告營銷
商品動態展示:僅需一張產品圖,即可生成包含虛擬主播講解、多角度展示的廣告視頻,適用于淘寶、抖音等平臺的商品詳情頁。
低成本本地化廣告:針對不同地區市場,快速生成適配語言與文化背景的廣告內容,顯著降低跨國營銷成本。
社交媒體內容創作
影視與游戲預制作
分鏡預覽:通過文本快速生成劇情分鏡,輔助導演與編劇可視化敘事節奏。
NPC動作庫構建:為游戲開發提供批量角色動作生成,減少手動建模工作量。
Goku的發布標志著ai視頻生成從“輔助工具”向“生產級應用”的跨越。其低成本特性已吸引多家國際快消品牌進行試點合作,據估算可減少80%的廣告制作周期。未來,結合實時渲染與3D建模技術,Goku有望進一步拓展至虛擬現實、元宇宙等場景。當前技術局限主要體現為長視頻的情節邏輯控制,但團隊表示將通過引入強化學習機制持續優化。
GitHub:https://github.com/Saiyan-World/goku
項目地址:https://saiyan-world.github.io/goku/
論文:https://arxiv.org/abs/2502.04896
與Goku相關工具
- 用戶登錄