Open-Sora 2.0:潞晨科技推出的一款開源SOTA視頻生成模型
Open-Sora 2.0是什么?
Open-Sora 2.0是由潞晨科技推出的一款全新開源的SOTA視頻生成ai模型。它僅用20萬美元(224張GPU)就成功訓練出商業級11B參數視頻生成大模型,實現接近 SOTA(最優)質量,但性能直追HunyuanVideo和 階躍星程30B參數的Step-Video,接近 OpenAI Sora!Open-Sora 2.0具備高效訓練和推理優化,能夠快速生成 720p 分辨率的流暢視頻,適用于創意視頻制作、社交媒體內容生成等領域。
Open-Sora 2.0功能特征
高質量視頻生成:支持720p高分辨率和24FPS流暢視頻生成,能夠生成細節豐富、場景切換自然的視頻。
動作幅度可控:可根據需求設定運動幅度,以更好地展現人物或場景的細膩動作。
高性能與低成本:
Open-Sora 2.0 采用 11B 參數規模,性能媲美甚至超越主流閉源大模型(如 HunyuanVideo 和 30B 參數的階躍星程),在 VBench 和人工偏好測試中表現卓越。
訓練成本大幅降低,僅用 20 萬美元(224 張 GPU)即可完成訓練,相比傳統高性能視頻生成模型,成本降低了 5-10 倍。,媲美 OpenAI Sora。
多種生成方式:
高效訓練與優化:
采用多階段、多層次的數據篩選機制,確保高質量數據輸入,提升訓練效率。
優先在低分辨率下訓練,學習關鍵動態特征,逐步提升分辨率,大幅降低計算開銷。
優先訓練圖生視頻任務,用圖像特征引導視頻生成,加速模型收斂。
結合ColossalAI和系統級優化,提升計算資源利用率。
引入高壓縮比視頻自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提高了10倍。
強大的模型架構:
基于3D自編碼器、3D全注意力機制和MMDiT架構,顯著提升訓練效率和推理速度。
通過多桶訓練機制,實現對不同視頻長度和分辨率的同時訓練。
Open-Sora 2.0技術突破
模型架構:采用3D全注意力機制和MMDiT架構,增強時空特征建模能力;基于擴散Transformer(DiT)擴展,引入時間注意力層,實現視頻序列的動態生成。
高效訓練策略:通過多級過濾機制確保高質量訓練數據輸入,優先學習運動特征,再通過圖生視頻(T2I2V)提升畫質,節省40倍計算資源。
推理加速革命:采用高壓縮自編碼器(4×32×32壓縮比),將768px視頻生成時間從30分鐘縮短至3分鐘,速度提升10倍。
Open-Sora 2.0應用場景
創意視頻制作:可用于制作科幻短片、動畫短片等,滿足創意視頻制作和內容生成的需求。
社交媒體內容生成:能夠生成適合社交媒體分享的高質量視頻內容。
游戲視頻制作:為游戲視頻的制作提供便利。
GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora
技術報告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf
相關文章
- 用戶登錄