首頁 > Ai資訊 > Ai產品

Pusa模型：基于Mochi微調的開源視頻擴散模型，支持文本、圖像、視頻到視頻

映技派于2025-04-14發布在Ai產品 1636

Pusa是什么？

Pusa是由Raphael Liu于2025年4月發布的新型ai 視頻生成模型，其核心創新在于通過幀級噪聲控制的新型擴散范式重新定義視頻擴散中的時間建模。Pusa模型支持文本、圖像、視頻到視頻的多種生成任務，并保持運動保真度和遵循提示，具有低成本、高性能的特點。

Pusa模型特點

幀級噪聲控制與矢量化時間步：Pusa 引入了幀級噪聲控制和矢量化的時間步，這一創新最初在 FVDM 論文中提出。與傳統方法相比，Pusa 的時間步數從傳統的 1000 個增加到數千個，極大地提升了模型的靈活性和可擴展性。這種幀級噪聲控制使得 Pusa 在視頻生成過程中能夠更精細地處理每一幀的內容，從而實現更高質量的視頻生成效果。
非破壞性修改：Pusa 對基礎模型的適配保留了其原有的文本到視頻生成能力。通過輕微微調，Pusa 便能夠適應多種視頻生成任務，而無需對基礎模型進行大規模的修改。這種非破壞性修改不僅節省了開發時間和成本，還確保了模型的穩定性和可靠性。
通用適用性：Pusa 的方法不僅適用于 Mochi 模型，還可以輕松應用于其他領先的視頻擴散模型，如 Hunyuan Video、Wan2.1 等。

Pusa模型架構

幀級噪聲控制：Pusa 實現了幀級噪聲控制和矢量化時間步，提供了前所未有的靈活性和可擴展性。
非破壞性修改：對基礎模型的修改保留了其原有的文本到視頻生成能力，僅需輕微微調。
通用適用性：該方法可以輕松應用于其他領先的視頻擴散模型，如 Hunyuan Video、Wan2.1 等。

Pusa應用場景

適用于影視特效制作、廣告創意生成及個性化視頻內容生產。
結合多模態輸入（如文本+圖像）實現復雜場景模擬，提升視頻生成的靈活性。

Pusa安裝與使用

安裝：

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安裝 Flash Attention，可以使用：

uv pip install -e .[flash] --no-build-isolation

下載權重：

使用 Hugging Face CLI：

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接從 Hugging Face 下載到本地。

基本使用：

文本到視頻生成：

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30

圖像到視頻生成：

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

訓練：

提供了完整的 Pusa 訓練代碼和詳細信息，支持對原始模型的訓練。

代碼倉庫：https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace：https://huggingface.co/RaphaelLiu/Pusa-V0.5