Step-Video-TI2V:階躍星辰開源的一款A(yù)I文生視頻和圖生視頻模型
Step-Video-TI2V是什么
Step-Video-TI2V 是由階躍星辰團(tuán)隊(duì)開源的一款基于文本驅(qū)動(dòng)的ai圖生視頻模型,可以根據(jù)用戶輸入的文本提示和圖像生成高質(zhì)量的視頻。它在動(dòng)漫風(fēng)格視頻生成方面表現(xiàn)出色,支持運(yùn)動(dòng)控制、多語(yǔ)言輸入和多種視頻格式輸出。
Step-Video-TI2V功能
文本驅(qū)動(dòng)的圖生視頻:根據(jù)用戶提供的文本提示和輸入圖像,生成與文本和圖像內(nèi)容高度一致的視頻。
運(yùn)動(dòng)控制:用戶可以指定不同的運(yùn)動(dòng)級(jí)別,精確控制視頻的動(dòng)態(tài)幅度,平衡動(dòng)態(tài)效果和穩(wěn)定性。
高質(zhì)量視頻輸出:能夠生成 102 幀、5 秒、540P 分辨率的視頻,支持多種視頻寬高比(橫屏、豎屏和正方形)。
多語(yǔ)言支持:支持中英文輸入,方便不同語(yǔ)言背景的用戶使用。
指令遵循與內(nèi)容一致性:在指令遵循、主體和背景一致性以及物理規(guī)律遵循等方面表現(xiàn)出色,生成的視頻內(nèi)容符合用戶的期望。
基準(zhǔn)測(cè)試支持:開發(fā)了 Step-Video-TI2V-eval 基準(zhǔn)數(shù)據(jù)集,包含 178 個(gè)真實(shí)世界的提示-圖像對(duì)和 120 個(gè)動(dòng)漫風(fēng)格的提示-圖像對(duì),用于評(píng)估模型性能。
Step-Video-TI2V應(yīng)用
內(nèi)容創(chuàng)作:為視頻創(chuàng)作者提供靈感和素材,快速生成視頻內(nèi)容,節(jié)省時(shí)間和精力。
動(dòng)漫制作:在動(dòng)漫風(fēng)格視頻生成方面表現(xiàn)出色,可用于動(dòng)漫角色的動(dòng)作展示、場(chǎng)景動(dòng)畫等。
廣告與營(yíng)銷:生成吸引人的視頻廣告,展示產(chǎn)品或服務(wù)的特點(diǎn)和優(yōu)勢(shì)。
教育與培訓(xùn):制作教育視頻,幫助學(xué)生更好地理解和記憶知識(shí)。
娛樂與社交媒體:為用戶提供有趣的視頻生成體驗(yàn),分享到社交媒體上,增加互動(dòng)性和趣味性。
Step-Video-TI2V安裝與使用
安裝
1. 環(huán)境要求:需要 Python 3.8 及以上版本,以及 CUDA 11.3 及以上版本(用于 GPU 加速)。
2. 安裝依賴:通過(guò)以下命令安裝所需的 Python 包:
pip install -r requirements.txt
3. 下載模型:從 Hugging Face 或 Modelscope 下載模型文件,并將其放置在指定目錄下。
使用
1. 準(zhǔn)備輸入數(shù)據(jù):準(zhǔn)備一張輸入圖像和一個(gè)文本提示,確保文本提示與輸入圖像內(nèi)容相關(guān)。
2. 運(yùn)行代碼:使用以下命令運(yùn)行模型生成視頻:
python generate_video.py --image_path --text_prompt "" --output_path
3. 調(diào)整參數(shù):根據(jù)需要調(diào)整運(yùn)動(dòng)控制參數(shù)(如運(yùn)動(dòng)幅度)和其他生成參數(shù),以獲得理想的視頻效果。
相關(guān)鏈接
GitHub 代碼倉(cāng)庫(kù):https://github.com/stepfun-ai/Step-Video-TI2V
Hugging Face 模型頁(yè)面:https://huggingface.co/stepfun-ai/stepvideo-t2v
Modelscope 模型頁(yè)面:https://modelscope.cn/models/stepfun-ai/stepvideo-ti2v
Github-ComfyUI:https://github.com/stepfun-ai/ComfyUI-StepVideo
論文:https://arxiv.org/abs/2503.08334