Step-Video-TI2V:階躍星辰開源的一款AI文生視頻和圖生視頻模型
Step-Video-TI2V是什么
Step-Video-TI2V 是由階躍星辰團隊開源的一款基于文本驅動的ai圖生視頻模型,可以根據用戶輸入的文本提示和圖像生成高質量的視頻。它在動漫風格視頻生成方面表現出色,支持運動控制、多語言輸入和多種視頻格式輸出。
Step-Video-TI2V功能
文本驅動的圖生視頻:根據用戶提供的文本提示和輸入圖像,生成與文本和圖像內容高度一致的視頻。
運動控制:用戶可以指定不同的運動級別,精確控制視頻的動態幅度,平衡動態效果和穩定性。
高質量視頻輸出:能夠生成 102 幀、5 秒、540P 分辨率的視頻,支持多種視頻寬高比(橫屏、豎屏和正方形)。
多語言支持:支持中英文輸入,方便不同語言背景的用戶使用。
指令遵循與內容一致性:在指令遵循、主體和背景一致性以及物理規律遵循等方面表現出色,生成的視頻內容符合用戶的期望。
基準測試支持:開發了 Step-Video-TI2V-eval 基準數據集,包含 178 個真實世界的提示-圖像對和 120 個動漫風格的提示-圖像對,用于評估模型性能。
Step-Video-TI2V應用
內容創作:為視頻創作者提供靈感和素材,快速生成視頻內容,節省時間和精力。
動漫制作:在動漫風格視頻生成方面表現出色,可用于動漫角色的動作展示、場景動畫等。
廣告與營銷:生成吸引人的視頻廣告,展示產品或服務的特點和優勢。
教育與培訓:制作教育視頻,幫助學生更好地理解和記憶知識。
娛樂與社交媒體:為用戶提供有趣的視頻生成體驗,分享到社交媒體上,增加互動性和趣味性。
Step-Video-TI2V安裝與使用
安裝
1. 環境要求:需要 Python 3.8 及以上版本,以及 CUDA 11.3 及以上版本(用于 GPU 加速)。
2. 安裝依賴:通過以下命令安裝所需的 Python 包:
pip install -r requirements.txt
3. 下載模型:從 Hugging Face 或 Modelscope 下載模型文件,并將其放置在指定目錄下。
使用
1. 準備輸入數據:準備一張輸入圖像和一個文本提示,確保文本提示與輸入圖像內容相關。
2. 運行代碼:使用以下命令運行模型生成視頻:
python generate_video.py --image_path --text_prompt "" --output_path
3. 調整參數:根據需要調整運動控制參數(如運動幅度)和其他生成參數,以獲得理想的視頻效果。
相關鏈接
GitHub 代碼倉庫:https://github.com/stepfun-ai/Step-Video-TI2V
Hugging Face 模型頁面:https://huggingface.co/stepfun-ai/stepvideo-t2v
Modelscope 模型頁面:https://modelscope.cn/models/stepfun-ai/stepvideo-ti2v
Github-ComfyUI:https://github.com/stepfun-ai/ComfyUI-StepVideo
論文:https://arxiv.org/abs/2503.08334