
VIMI大模型
VIMI大模型簡介
VIMI大模型,商湯科技推出的全球首個可控人物視頻生成aiGC產(chǎn)品,VIMI大模型基于商湯的日日新大模型技術(shù),可以通過動作視頻、動畫、聲音、文字等多種驅(qū)動元素來驅(qū)動人物類圖片,畫面效果不會隨著時間的變化而降低品質(zhì)或失真,從而生成和目標(biāo)動作一致的人物類視頻。除了可控性外,Vimi在生成人物穩(wěn)定性、生成視頻時長上,也突破了其它大模型AI視頻生成的限制,可以穩(wěn)定的生成分鐘級的單鏡頭人物視頻。
VIMI大模型不但可以實現(xiàn)精準(zhǔn)的人物表情控制,還可控制照片中人物上半身的自然肢體動作,并自動生成與人物相符的頭發(fā)、服飾及背景變化。同時光影變化也能做到合理生成,讓人物動作和視覺效果流暢自然,畫面和諧唯美,是穩(wěn)定的可控人物視頻生成產(chǎn)品。
VIMI大模型功能特征:
可控人物:VIMI能夠精確控制視頻中人物的面部表情和肢體動作,生成與目標(biāo)動作高度一致的視頻內(nèi)容。無論是微妙的面部表情變化,還是復(fù)雜的全身動作,VIMI都能夠準(zhǔn)確捕捉并再現(xiàn)。
多種控制方式:VIMI提供了多樣化的控制輸入方式,包括人物視頻、動畫參數(shù)、語音文字等。使用戶能夠通過不同的輸入方法來驅(qū)動視頻生成,創(chuàng)造出更豐富和多樣化的視頻。
分鐘級單鏡頭:支持生成分鐘級的單鏡頭人物視頻
合理的視頻場景生成:VIMI不僅關(guān)注人物本身的表現(xiàn),還能夠生成合理的視頻場景,包括人物的頭發(fā)、服飾、背景等元素的補(bǔ)全,以及光影變化的支持。這使得VIMI生成的視頻不僅人物表現(xiàn)自然,整個場景也和諧統(tǒng)一。
穩(wěn)定生成長視頻:VIMI能夠生成長達(dá)一分鐘的單鏡頭人物視頻,且畫面效果穩(wěn)定,不隨時間劣化或失真。這是一個顯著的突破。
VIMI大模型應(yīng)用場景:
VIMI主要面向C端用戶,適用于聊天、唱歌、舞動等多種娛樂互動場景。
娛樂創(chuàng)作:滿足廣大用戶的娛樂創(chuàng)作需求,如生成數(shù)字分身和寫真視頻和各種趣味的人物表情包。
影視制作:為影視作品提供高質(zhì)量的人物視頻素材,減少制作成本和時間。
動畫制作:支持動畫創(chuàng)作者使用骨架生成動作,提高動畫制作效率。
Vimi大模型在2024年世界人工智能大會(WAIC)上發(fā)布,并入選大會展覽展示最高榮譽(yù)“鎮(zhèn)館之寶”。Vimi大模型能夠生成長達(dá)1分鐘以上的單鏡頭人物視頻,且畫面效果不會隨時間降低品質(zhì)或失真,還能根據(jù)人物動作調(diào)整環(huán)境場景,模擬鏡頭角度變化和頭發(fā)抖動,提供逼真的視覺效果。
Vimi將完全向廣大用戶開放使用。用戶只需上傳不同角度的高清人物照片,即可自動生成數(shù)字分身和不同風(fēng)格的寫真短片。針對喜愛自拍的用戶,Vimi支援聊天、唱歌、舞動等多種娛樂互動場景。