阿里巴巴EMO:一張圖片和音頻即可生成談話或唱歌視頻
阿里巴巴集團(tuán)智能計(jì)算研究院隆重推出EMO:Emote Portrait Alive,一種突破性的 AI,只需圖像和音頻即可生成富有表現(xiàn)力的人像視頻!同時(shí)生成視頻的長(zhǎng)度和你音頻長(zhǎng)度相匹配,談話和唱歌視頻栩栩如生,支持任意語音、任意語速、任意圖像...
與傳統(tǒng)方法不同,EMO使用直接的音頻到視頻方法,繞過了對(duì)中間3D模型或面部標(biāo)志的需求。確保了整個(gè)視頻的無縫幀轉(zhuǎn)換和一致的身份保留,從而產(chǎn)生了高度表現(xiàn)力和逼真的動(dòng)畫,這意味著更平滑的過渡和更自然的表情。
EMO甚至擅長(zhǎng)制作各種風(fēng)格的歌唱視頻!想象一下,只用你最喜歡的藝術(shù)家的一張圖片來制作音樂視頻!
EMO研究論文:https://arxiv.org/pdf/2402.17485.pdf
EMO開源地址:https://humanaigc.github.io/emote-portrait-alive/
EMO主要功能:
1、音頻驅(qū)動(dòng)的人像視頻生成: 利用單張參考圖像和音頻輸入(如說話或唱歌),EMO能夠生成具有表情變化和頭部動(dòng)態(tài)的虛擬人像視頻。這意味著用戶可以通過提供一張靜態(tài)圖片和相應(yīng)的音頻文件,來創(chuàng)造出說話或唱歌的動(dòng)態(tài)視頻。無論視頻中的人物進(jìn)行怎樣的表情變化或頭部動(dòng)作,其基礎(chǔ)特征都來源于這張參考圖片。
2、表情豐富的動(dòng)態(tài)渲染和頭部姿勢(shì)支持: EMO特別強(qiáng)調(diào)在視頻中生成自然而富有表情的面部動(dòng)作,它可以捕捉微妙的面部表情和頭部運(yùn)動(dòng),創(chuàng)造出栩栩如生的談話和唱歌視頻,從而生成看起來自然、生動(dòng)的面部動(dòng)畫,增加了視頻的動(dòng)態(tài)性和真實(shí)感。
3、支持多種語言和肖像風(fēng)格: 該技術(shù)不限于特定語言或音樂風(fēng)格,能夠處理多種語言的音頻輸入,并且支持多樣化的肖像風(fēng)格,包括歷史人物、繪畫作品、3D模型和AI生成內(nèi)容等。
4、快速節(jié)奏同步: EMO能夠處理快節(jié)奏的音頻,如快速的歌詞或說話,確保虛擬人像的動(dòng)作與音頻節(jié)奏保持同步。
5、跨演員表現(xiàn)轉(zhuǎn)換: EMO能夠?qū)崿F(xiàn)不同演員之間的表現(xiàn)轉(zhuǎn)換,使得一位演員的虛擬形象能夠模仿另一位演員或聲音的特定表演,拓展了角色描繪的多樣性和應(yīng)用場(chǎng)景。
EMO應(yīng)用場(chǎng)景:
創(chuàng)建即時(shí)配音
為電影和視頻游戲創(chuàng)建逼真且富有表現(xiàn)力的角色
開發(fā)引人入勝的互動(dòng)教育材料
給虛擬助手一個(gè)更像人類的外觀和感覺
讓視頻電話會(huì)議更具吸引力和個(gè)性化
制作更引人入勝、更令人難忘的營(yíng)銷和廣告視頻
實(shí)驗(yàn)結(jié)果表明,EMO不僅能夠制作令人信服的口語視頻,還能夠制作各種風(fēng)格的歌唱視頻,在表現(xiàn)力和真實(shí)感方面明顯優(yōu)于現(xiàn)有的最先進(jìn)的方法。為視頻生成設(shè)定了新的標(biāo)準(zhǔn),對(duì)于未來來說意義重大。