阿里巴巴EMO:一張圖片和音頻即可生成談話或唱歌視頻
阿里巴巴集團智能計算研究院隆重推出EMO:Emote Portrait Alive,一種突破性的 AI,只需圖像和音頻即可生成富有表現(xiàn)力的人像視頻!同時生成視頻的長度和你音頻長度相匹配,談話和唱歌視頻栩栩如生,支持任意語音、任意語速、任意圖像...
與傳統(tǒng)方法不同,EMO使用直接的音頻到視頻方法,繞過了對中間3D模型或面部標志的需求。確保了整個視頻的無縫幀轉換和一致的身份保留,從而產生了高度表現(xiàn)力和逼真的動畫,這意味著更平滑的過渡和更自然的表情。
EMO甚至擅長制作各種風格的歌唱視頻!想象一下,只用你最喜歡的藝術家的一張圖片來制作音樂視頻!
EMO研究論文:https://arxiv.org/pdf/2402.17485.pdf
EMO開源地址:https://humanaigc.github.io/emote-portrait-alive/
EMO主要功能:
1、音頻驅動的人像視頻生成: 利用單張參考圖像和音頻輸入(如說話或唱歌),EMO能夠生成具有表情變化和頭部動態(tài)的虛擬人像視頻。這意味著用戶可以通過提供一張靜態(tài)圖片和相應的音頻文件,來創(chuàng)造出說話或唱歌的動態(tài)視頻。無論視頻中的人物進行怎樣的表情變化或頭部動作,其基礎特征都來源于這張參考圖片。
2、表情豐富的動態(tài)渲染和頭部姿勢支持: EMO特別強調在視頻中生成自然而富有表情的面部動作,它可以捕捉微妙的面部表情和頭部運動,創(chuàng)造出栩栩如生的談話和唱歌視頻,從而生成看起來自然、生動的面部動畫,增加了視頻的動態(tài)性和真實感。
3、支持多種語言和肖像風格: 該技術不限于特定語言或音樂風格,能夠處理多種語言的音頻輸入,并且支持多樣化的肖像風格,包括歷史人物、繪畫作品、3D模型和AI生成內容等。
4、快速節(jié)奏同步: EMO能夠處理快節(jié)奏的音頻,如快速的歌詞或說話,確保虛擬人像的動作與音頻節(jié)奏保持同步。
5、跨演員表現(xiàn)轉換: EMO能夠實現(xiàn)不同演員之間的表現(xiàn)轉換,使得一位演員的虛擬形象能夠模仿另一位演員或聲音的特定表演,拓展了角色描繪的多樣性和應用場景。
EMO應用場景:
創(chuàng)建即時配音
為電影和視頻游戲創(chuàng)建逼真且富有表現(xiàn)力的角色
開發(fā)引人入勝的互動教育材料
給虛擬助手一個更像人類的外觀和感覺
讓視頻電話會議更具吸引力和個性化
制作更引人入勝、更令人難忘的營銷和廣告視頻
實驗結果表明,EMO不僅能夠制作令人信服的口語視頻,還能夠制作各種風格的歌唱視頻,在表現(xiàn)力和真實感方面明顯優(yōu)于現(xiàn)有的最先進的方法。為視頻生成設定了新的標準,對于未來來說意義重大。