Pusa模型:基于Mochi微調(diào)的開源視頻擴散模型,支持文本、圖像、視頻到視頻
Pusa是什么?
Pusa是由Raphael Liu于2025年4月發(fā)布的新型ai視頻生成模型,其核心創(chuàng)新在于通過幀級噪聲控制的新型擴散范式重新定義視頻擴散中的時間建模。Pusa模型支持文本、圖像、視頻到視頻的多種生成任務(wù),并保持運動保真度和遵循提示,具有低成本、高性能的特點。
Pusa模型特點
幀級噪聲控制與矢量化時間步:Pusa 引入了幀級噪聲控制和矢量化的時間步,這一創(chuàng)新最初在 FVDM 論文中提出。與傳統(tǒng)方法相比,Pusa 的時間步數(shù)從傳統(tǒng)的 1000 個增加到數(shù)千個,極大地提升了模型的靈活性和可擴展性。這種幀級噪聲控制使得 Pusa 在視頻生成過程中能夠更精細地處理每一幀的內(nèi)容,從而實現(xiàn)更高質(zhì)量的視頻生成效果。
非破壞性修改:Pusa 對基礎(chǔ)模型的適配保留了其原有的文本到視頻生成能力。通過輕微微調(diào),Pusa 便能夠適應(yīng)多種視頻生成任務(wù),而無需對基礎(chǔ)模型進行大規(guī)模的修改。這種非破壞性修改不僅節(jié)省了開發(fā)時間和成本,還確保了模型的穩(wěn)定性和可靠性。
通用適用性:Pusa 的方法不僅適用于 Mochi 模型,還可以輕松應(yīng)用于其他領(lǐng)先的視頻擴散模型,如 Hunyuan Video、Wan2.1 等。
Pusa模型架構(gòu)
幀級噪聲控制:Pusa 實現(xiàn)了幀級噪聲控制和矢量化時間步,提供了前所未有的靈活性和可擴展性。
非破壞性修改:對基礎(chǔ)模型的修改保留了其原有的文本到視頻生成能力,僅需輕微微調(diào)。
通用適用性:該方法可以輕松應(yīng)用于其他領(lǐng)先的視頻擴散模型,如 Hunyuan Video、Wan2.1 等。
Pusa應(yīng)用場景
適用于影視特效制作、廣告創(chuàng)意生成及個性化視頻內(nèi)容生產(chǎn)。
結(jié)合多模態(tài)輸入(如文本+圖像)實現(xiàn)復(fù)雜場景模擬,提升視頻生成的靈活性。
Pusa安裝與使用
安裝:
git clone https://github.com/genmoai/models cd models pip install uv uv venv .venv source .venv/bin/activate uv pip install setuptools uv pip install -e . --no-build-isolation
如果需要安裝 Flash Attention,可以使用:
uv pip install -e .[flash] --no-build-isolation
下載權(quán)重:
使用 Hugging Face CLI:
pip install huggingface_hub huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir
或者直接從 Hugging Face 下載到本地。
基本使用:
文本到視頻生成:
python ./demos/cli_test_ti2v_release.py \ --model_dir "/path/to/Pusa-V0.5" \ --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \ --prompt "A man is playing basketball" \ --num_steps 30
圖像到視頻生成:
python ./demos/cli_test_ti2v_release.py \ --model_dir "/path/to/Pusa-V0.5" \ --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \ --prompt "Your_prompt_here" \ --image_dir "/path/to/input/image.jpg" \ --cond_position 1 \ --num_steps 30
訓(xùn)練:
提供了完整的 Pusa 訓(xùn)練代碼和詳細信息,支持對原始模型的訓(xùn)練。
代碼倉庫:https://github.com/Yaofang-Liu/Pusa-VidGen
HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5