我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Pusa模型:基于Mochi微調(diào)的開源視頻擴散模型,支持文本、圖像、視頻到視頻

Pusa是什么?

Pusa是由Raphael Liu于2025年4月發(fā)布的新型ai視頻生成模型,其核心創(chuàng)新在于通過幀級噪聲控制的新型擴散范式重新定義視頻擴散中的時間建模。Pusa模型支持文本、圖像、視頻到視頻的多種生成任務(wù),并保持運動保真度和遵循提示,具有低成本、高性能的特點。

Pusa模型特點

  • 幀級噪聲控制與矢量化時間步:Pusa 引入了幀級噪聲控制和矢量化的時間步,這一創(chuàng)新最初在 FVDM 論文中提出。與傳統(tǒng)方法相比,Pusa 的時間步數(shù)從傳統(tǒng)的 1000 個增加到數(shù)千個,極大地提升了模型的靈活性和可擴展性。這種幀級噪聲控制使得 Pusa 在視頻生成過程中能夠更精細地處理每一幀的內(nèi)容,從而實現(xiàn)更高質(zhì)量的視頻生成效果。

  • 非破壞性修改:Pusa 對基礎(chǔ)模型的適配保留了其原有的文本到視頻生成能力。通過輕微微調(diào),Pusa 便能夠適應(yīng)多種視頻生成任務(wù),而無需對基礎(chǔ)模型進行大規(guī)模的修改。這種非破壞性修改不僅節(jié)省了開發(fā)時間和成本,還確保了模型的穩(wěn)定性和可靠性。

  • 通用適用性:Pusa 的方法不僅適用于 Mochi 模型,還可以輕松應(yīng)用于其他領(lǐng)先的視頻擴散模型,如 Hunyuan VideoWan2.1 等。

methods_overview.webp

Pusa模型架構(gòu)

  • 幀級噪聲控制:Pusa 實現(xiàn)了幀級噪聲控制和矢量化時間步,提供了前所未有的靈活性和可擴展性。

  • 非破壞性修改:對基礎(chǔ)模型的修改保留了其原有的文本到視頻生成能力,僅需輕微微調(diào)。

  • 通用適用性:該方法可以輕松應(yīng)用于其他領(lǐng)先的視頻擴散模型,如 Hunyuan Video、Wan2.1 等。

Pusa應(yīng)用場景

  • 適用于影視特效制作、廣告創(chuàng)意生成及個性化視頻內(nèi)容生產(chǎn)。

  • 結(jié)合多模態(tài)輸入(如文本+圖像)實現(xiàn)復(fù)雜場景模擬,提升視頻生成的靈活性。

Pusa安裝與使用

安裝:

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安裝 Flash Attention,可以使用:

uv pip install -e .[flash] --no-build-isolation

下載權(quán)重:

  • 使用 Hugging Face CLI:

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接從 Hugging Face 下載到本地。

基本使用:

  • 文本到視頻生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30
  • 圖像到視頻生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

訓(xùn)練:

提供了完整的 Pusa 訓(xùn)練代碼和詳細信息,支持對原始模型的訓(xùn)練。

代碼倉庫:https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5

收藏
#文字轉(zhuǎn)視頻 #圖文轉(zhuǎn)視頻
最新工具
Quick Prompt
Quick Prompt

一個專注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴展插件...

FoldNFly
FoldNFly

一個專注于紙飛機折疊教程的網(wǎng)站,提供豐富的紙飛機設(shè)計資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉(zhuǎn)語音工具,支持 50 多種語言,具備語音克隆功能,僅需...

Loud Fame
Loud Fame

一款A(yù)I視頻生成和編輯工具,能夠?qū)⑵胀ㄒ曨l轉(zhuǎn)換為具有動漫風(fēng)格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產(chǎn)品,集PPT模板下載、設(shè)計教程、交流社區(qū)和定制服...

職達AI簡歷
職達AI簡歷

一個專業(yè)的 AI 簡歷優(yōu)化平臺,提供簡歷&求職一站式服務(wù)...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專為個人和團隊的創(chuàng)意表達、知...

Ztalk ai
Ztalk ai

一個AI驅(qū)動的會議實時語音翻譯平臺,可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內(nèi)容,錄制的視頻可以自動...

主站蜘蛛池模板: 咸丰县| 竹山县| 阳高县| 临高县| 新竹市| 河东区| 安康市| 宣恩县| 泾川县| 广东省| 马山县| 澎湖县| 山阴县| 萝北县| 浏阳市| 双峰县| 元氏县| 汉沽区| 晋宁县| 栾城县| 南充市| 布拖县| 黎川县| 庆元县| 济南市| 沈阳市| 涟源市| 云龙县| 漳平市| 道孚县| 广饶县| 麻城市| 云浮市| 平凉市| 潜山县| 库伦旗| 吕梁市| 大理市| 贡嘎县| 临清市| 邵阳县|