我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Open-Sora 2.0:潞晨科技推出的一款開源SOTA視頻生成模型

Open-Sora 2.0是什么?

Open-Sora 2.0是由潞晨科技推出的一款全新開源的SOTA視頻生成ai模型。它僅用20萬美元(224張GPU)就成功訓練出商業級11B參數視頻生成大模型,實現接近 SOTA(最優)質量,但性能直追HunyuanVideo和 階躍星程30B參數的Step-Video,接近 OpenAI Sora!Open-Sora 2.0具備高效訓練和推理優化,能夠快速生成 720p 分辨率的流暢視頻,適用于創意視頻制作、社交媒體內容生成等領域。

Open-Sora 2.0:潞晨科技推出的一款開源的SOTA視頻生成模型.webp

Open-Sora 2.0功能特征

高質量視頻生成:支持720p高分辨率和24FPS流暢視頻生成,能夠生成細節豐富、場景切換自然的視頻。

動作幅度可控:可根據需求設定運動幅度,以更好地展現人物或場景的細膩動作。

高性能與低成本:

  • Open-Sora 2.0 采用 11B 參數規模,性能媲美甚至超越主流閉源大模型(如 HunyuanVideo 和 30B 參數的階躍星程),在 VBench 和人工偏好測試中表現卓越。

  • 訓練成本大幅降低,僅用 20 萬美元(224 張 GPU)即可完成訓練,相比傳統高性能視頻生成模型,成本降低了 5-10 倍。,媲美 OpenAI Sora

多種生成方式:

  • 文生視頻支持用文本描述直接生成對應的視頻內容。

  • 圖生視頻結合開源圖像模型,基于圖像生成視頻。

高效訓練與優化:

  • 采用多階段、多層次的數據篩選機制,確保高質量數據輸入,提升訓練效率。

  • 優先在低分辨率下訓練,學習關鍵動態特征,逐步提升分辨率,大幅降低計算開銷。

  • 優先訓練圖生視頻任務,用圖像特征引導視頻生成,加速模型收斂。

  • 結合ColossalAI和系統級優化,提升計算資源利用率。

  • 引入高壓縮比視頻自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提高了10倍。

強大的模型架構:

  • 基于3D自編碼器、3D全注意力機制和MMDiT架構,顯著提升訓練效率和推理速度。

  • 通過多桶訓練機制,實現對不同視頻長度和分辨率的同時訓練。

Open-Sora 2.0:潞晨科技推出的一款開源的SOTA視頻生成模型.webp

Open-Sora 2.0技術突破

  • 模型架構:采用3D全注意力機制和MMDiT架構,增強時空特征建模能力;基于擴散Transformer(DiT)擴展,引入時間注意力層,實現視頻序列的動態生成。

  • 高效訓練策略:通過多級過濾機制確保高質量訓練數據輸入,優先學習運動特征,再通過圖生視頻(T2I2V)提升畫質,節省40倍計算資源。

  • 推理加速革命:采用高壓縮自編碼器(4×32×32壓縮比),將768px視頻生成時間從30分鐘縮短至3分鐘,速度提升10倍。

Open-Sora 2.0:潞晨科技推出的一款開源的SOTA視頻生成模型.webp

Open-Sora 2.0應用場景

  • 創意視頻制作:可用于制作科幻短片、動畫短片等,滿足創意視頻制作和內容生成的需求。

  • 社交媒體內容生成:能夠生成適合社交媒體分享的高質量視頻內容。

  • 游戲視頻制作:為游戲視頻的制作提供便利。

GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora

技術報告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

收藏
#圖文轉視頻 #文字轉視頻
最新工具
Quick Prompt
Quick Prompt

一個專注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴展插件...

FoldNFly
FoldNFly

一個專注于紙飛機折疊教程的網站,提供豐富的紙飛機設計資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉語音工具,支持 50 多種語言,具備語音克隆功能,僅需...

Loud Fame
Loud Fame

一款AI視頻生成和編輯工具,能夠將普通視頻轉換為具有動漫風格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產品,集PPT模板下載、設計教程、交流社區和定制服...

職達AI簡歷
職達AI簡歷

一個專業的 AI 簡歷優化平臺,提供簡歷&求職一站式服務...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專為個人和團隊的創意表達、知...

Ztalk ai
Ztalk ai

一個AI驅動的會議實時語音翻譯平臺,可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內容,錄制的視頻可以自動...

主站蜘蛛池模板: 孝义市| 墨玉县| 政和县| 庆云县| 平谷区| 武清区| 霍城县| 珲春市| 榆树市| 高唐县| 扎兰屯市| 四子王旗| 榆林市| 淅川县| 二手房| 庐江县| 南召县| 内黄县| 武穴市| 广南县| 西盟| 七台河市| 阳新县| 渝中区| 普定县| 甘肃省| 新蔡县| 宝丰县| 辽中县| 万山特区| 公主岭市| 沐川县| 武川县| 株洲县| 南木林县| 蒲城县| 铅山县| 尼木县| 定边县| 江安县| 德安县|