我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Pusa模型:基于Mochi微調的開源視頻擴散模型,支持文本、圖像、視頻到視頻

Pusa是什么?

Pusa是由Raphael Liu于2025年4月發布的新型ai視頻生成模型,其核心創新在于通過幀級噪聲控制的新型擴散范式重新定義視頻擴散中的時間建模。Pusa模型支持文本、圖像、視頻到視頻的多種生成任務,并保持運動保真度和遵循提示,具有低成本、高性能的特點。

Pusa模型特點

  • 幀級噪聲控制與矢量化時間步:Pusa 引入了幀級噪聲控制和矢量化的時間步,這一創新最初在 FVDM 論文中提出。與傳統方法相比,Pusa 的時間步數從傳統的 1000 個增加到數千個,極大地提升了模型的靈活性和可擴展性。這種幀級噪聲控制使得 Pusa 在視頻生成過程中能夠更精細地處理每一幀的內容,從而實現更高質量的視頻生成效果。

  • 非破壞性修改:Pusa 對基礎模型的適配保留了其原有的文本到視頻生成能力。通過輕微微調,Pusa 便能夠適應多種視頻生成任務,而無需對基礎模型進行大規模的修改。這種非破壞性修改不僅節省了開發時間和成本,還確保了模型的穩定性和可靠性。

  • 通用適用性:Pusa 的方法不僅適用于 Mochi 模型,還可以輕松應用于其他領先的視頻擴散模型,如 Hunyuan VideoWan2.1 等。

methods_overview.webp

Pusa模型架構

  • 幀級噪聲控制:Pusa 實現了幀級噪聲控制和矢量化時間步,提供了前所未有的靈活性和可擴展性。

  • 非破壞性修改:對基礎模型的修改保留了其原有的文本到視頻生成能力,僅需輕微微調。

  • 通用適用性:該方法可以輕松應用于其他領先的視頻擴散模型,如 Hunyuan Video、Wan2.1 等。

Pusa應用場景

  • 適用于影視特效制作、廣告創意生成及個性化視頻內容生產。

  • 結合多模態輸入(如文本+圖像)實現復雜場景模擬,提升視頻生成的靈活性。

Pusa安裝與使用

安裝:

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安裝 Flash Attention,可以使用:

uv pip install -e .[flash] --no-build-isolation

下載權重:

  • 使用 Hugging Face CLI:

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接從 Hugging Face 下載到本地。

基本使用:

  • 文本到視頻生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30
  • 圖像到視頻生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

訓練:

提供了完整的 Pusa 訓練代碼和詳細信息,支持對原始模型的訓練。

代碼倉庫:https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5

收藏
#文字轉視頻 #圖文轉視頻
最新工具
TheUselessWeb
TheUselessWeb

澳大利亞開發者Tim Holman做的網站,它的核心功能是點一下...

Shell Shockers
Shell Shockers

一款多人在線的第一人稱射擊游戲,玩家操控各種“武裝雞蛋”在競技場...

Sheet0
Sheet0

一個L4級 Data Agent工具,用戶只需輸入需求指令,系統...

DrFonts
DrFonts

一個AI字體生成工具,它能把手寫的PNG圖片,比如紙上的字稿,自...

Coding Adventure
Coding Adventure

一個面向小學三年級到初中學生的游戲化編程學習平臺。學生用真實編程...

Vert.sh
Vert.sh

一款完全免費、開源的文件轉換工具,支持圖片、音頻、文檔的本地處理...

Windrecorder
Windrecorder

捕風記錄儀,一款開源的屏幕錄制與檢索工具,它記錄屏幕內容來實現記...

Custom Cursor
Custom Cursor

一個能讓你擁有個性化光標的網站。Custom Cursor網站有...

橙子8設計
橙子8設計

一站式AI電商圖片制作平臺,專為電商和跨境賣家服務。不用專業設計...

Sandspiel
Sandspiel

一款基于細胞自動機和實時物理的開源像素沙盤游戲,玩家可以在虛擬沙...

主站蜘蛛池模板: 临城县| 广饶县| 来凤县| 凤阳县| 灌云县| 黄浦区| 山东| 泉州市| 濮阳市| 塔城市| 定陶县| 台前县| 南开区| 丹寨县| 宜黄县| 茶陵县| 弥勒县| 景东| 通化县| 罗江县| 永宁县| 肃宁县| 通州区| 介休市| 孟津县| 滦南县| 桃江县| 本溪市| 德格县| 黄陵县| 海丰县| 五原县| 梧州市| 东乌珠穆沁旗| 台东县| 泸州市| 班玛县| 嘉荫县| 钟山县| 宜宾县| 安顺市|