HunyuanVideo-I2V:騰訊混元開源的圖像轉視頻生成框架
HunyuanVideo-I2V 是什么?
HunyuanVideo-I2V是騰訊混元團隊于2025年3月6日開源的全新圖生視頻框架。該框架基于之前開源的HunyuanVideo,進一步擴展了圖像到視頻生成的能力,視頻創作者可以從單張圖片生成高質量的短視頻,并支持定制化特效訓練。
HunyuanVideo-I2V功能特點
圖生視頻:HunyuanVideo-I2V 可以將靜態圖像作為視頻的第一幀,根據用戶輸入的字幕或描述生成匹配的視頻內容。
多模態大語言模型(MLLM):該模型采用預訓練的多模態大語言模型作為文本編碼器,顯著增強了對輸入圖像語義內容的理解能力。
3D變分自編碼器(3D VAE):使用CausalConv3D技術訓練的3D VAE,將像素空間中的視頻和圖像壓縮到緊湊的潛在空間,減少后續模型中的token數量。
雙流轉單流的混合模型設計:在雙流階段,視頻和文本token通過多個Transformer塊獨立處理;在單流階段,將視頻和文本token連接起來,進行多模態信息融合。
漸進式訓練策略:從低分辨率、短視頻逐步過渡到高分辨率、長視頻,提高模型的收斂速度。
提示詞重寫模型:解決用戶提示詞的語言風格和長度多變性問題,將用戶輸入的提示詞轉換為模型更易理解的格式。
可定制化LoRA訓練:支持通過少量數據訓練出具有特定效果的視頻生成模型,例如“頭發生長”或“人物動作”等特效。
高效推理:提供單GPU推理和多GPU序列并行推理,支持更快的推理速度。
HunyuanVideo-I2V技術架構
HunyuanVideo-I2V在整體架構上延續了HunyuanVideo的設計思路,并在此基礎上針對圖像到視頻生成任務進行了優化。其核心在于利用圖像隱空間拼接技術,將參考圖片的關鍵信息注入到視頻生成流程中,同時通過MLLM實現文本和圖像信息的跨模態深度融合。
HunyuanVideo-I2V使用方法
1. 安裝與依賴
安裝PyTorch和其他依賴項,具體安裝指南可在GitHub頁面找到。
推薦使用NVIDIA GPU,至少需要80GB的顯存。
2. 下載預訓練模型
預訓練模型權重可在GitHub頁面或Hugging Face頁面下載。
3. 推理代碼
使用提供的推理代碼(如sample_video.py)生成視頻。
4. LoRA訓練
提供LoRA訓練代碼,用戶可以通過少量數據訓練出具有特定效果的視頻生成模型。
HunyuanVideo-I2V應用場景
視頻內容創作:為視頻創作者提供高效、高質量的視頻生成工具。
影視制作:生成影視級視頻內容。
個性化視頻:根據用戶上傳的圖片和描述生成個性化視頻。
官網:https://video.hunyuan.tencent.com/
GitHub:https://github.com/Tencent/HunyuanVideo-I2V
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-I2V