我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Pusa模型:基于Mochi微調的開源視頻擴散模型,支持文本、圖像、視頻到視頻

Pusa是什么?

Pusa是由Raphael Liu于2025年4月發布的新型ai視頻生成模型,其核心創新在于通過幀級噪聲控制的新型擴散范式重新定義視頻擴散中的時間建模。Pusa模型支持文本、圖像、視頻到視頻的多種生成任務,并保持運動保真度和遵循提示,具有低成本、高性能的特點。

Pusa模型特點

  • 幀級噪聲控制與矢量化時間步:Pusa 引入了幀級噪聲控制和矢量化的時間步,這一創新最初在 FVDM 論文中提出。與傳統方法相比,Pusa 的時間步數從傳統的 1000 個增加到數千個,極大地提升了模型的靈活性和可擴展性。這種幀級噪聲控制使得 Pusa 在視頻生成過程中能夠更精細地處理每一幀的內容,從而實現更高質量的視頻生成效果。

  • 非破壞性修改:Pusa 對基礎模型的適配保留了其原有的文本到視頻生成能力。通過輕微微調,Pusa 便能夠適應多種視頻生成任務,而無需對基礎模型進行大規模的修改。這種非破壞性修改不僅節省了開發時間和成本,還確保了模型的穩定性和可靠性。

  • 通用適用性:Pusa 的方法不僅適用于 Mochi 模型,還可以輕松應用于其他領先的視頻擴散模型,如 Hunyuan VideoWan2.1 等。

methods_overview.webp

Pusa模型架構

  • 幀級噪聲控制:Pusa 實現了幀級噪聲控制和矢量化時間步,提供了前所未有的靈活性和可擴展性。

  • 非破壞性修改:對基礎模型的修改保留了其原有的文本到視頻生成能力,僅需輕微微調。

  • 通用適用性:該方法可以輕松應用于其他領先的視頻擴散模型,如 Hunyuan Video、Wan2.1 等。

Pusa應用場景

  • 適用于影視特效制作、廣告創意生成及個性化視頻內容生產。

  • 結合多模態輸入(如文本+圖像)實現復雜場景模擬,提升視頻生成的靈活性。

Pusa安裝與使用

安裝:

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install setuptools
uv pip install -e . --no-build-isolation

如果需要安裝 Flash Attention,可以使用:

uv pip install -e .[flash] --no-build-isolation

下載權重:

  • 使用 Hugging Face CLI:

pip install huggingface_hub
huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir

或者直接從 Hugging Face 下載到本地。

基本使用:

  • 文本到視頻生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "A man is playing basketball" \
  --num_steps 30
  • 圖像到視頻生成:

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \
  --prompt "Your_prompt_here" \
  --image_dir "/path/to/input/image.jpg" \
  --cond_position 1 \
  --num_steps 30

訓練:

提供了完整的 Pusa 訓練代碼和詳細信息,支持對原始模型的訓練。

代碼倉庫:https://github.com/Yaofang-Liu/Pusa-VidGen

HuggingFace:https://huggingface.co/RaphaelLiu/Pusa-V0.5

收藏
#文字轉視頻 #圖文轉視頻
最新工具
LiYing
LiYing

一款證件照AI自動化處理神器,用于自動化處理證件照的程序,可在本...

框框大學
框框大學

復旦大學博士、站長“取景框看世界”創辦、程序員魚皮技術支持的專業...

ToePub
ToePub

一款免費的電子書格式轉換工具,能把 PDF 等文檔轉成 EPUB...

MusicCreator AI
MusicCreator AI

免費的AI音樂歌詞生成器,有歌詞轉音樂等功能,還有AI音軌分離、...

Lufe AI
Lufe AI

不錯的多合一翻譯工具,用了 Gemini、OpenAI、Clau...

SeatMaps
SeatMaps

為各航空公司提供準確的座位圖和可視化信息數據,平臺整合專業航空數...

書簽地球
書簽地球

一個能分享、管理和發現書簽的平臺,能在線做書簽,也支持導入導出、...

Atypica AI
Atypica AI

特贊科技推出的商業研究AI多智能體,只要是通過模擬真實消費者行為...

AutoCoder
AutoCoder

AIGCode推出的自稱是全球首個全棧AI編程工具,它可以過自然...

Wayback Machine
Wayback Machine

一個免費的網頁歷史存檔和查詢工具,可以能保存不同時間點的網頁內容...

主站蜘蛛池模板: 沽源县| 庄河市| 孟津县| 综艺| 崇文区| 襄汾县| 灵山县| 门头沟区| 龙山县| 都匀市| 偏关县| 上蔡县| 乐安县| 宿松县| 安图县| 乌审旗| 美姑县| 乐业县| 汉川市| 白山市| 竹北市| 渑池县| 沿河| 临沧市| 屯留县| 大埔县| 纳雍县| 达州市| 聂拉木县| 七台河市| 灌南县| 海南省| 东明县| 靖安县| 蒲江县| 兴化市| 军事| 璧山县| 广饶县| 会理县| 泗洪县|