Emote Portrait Alive

阿里巴巴發(fā)布的EMO，一種音頻驅(qū)動(dòng)的AI肖像視頻生成框架。通過輸入單一的參考圖像和語音音頻，Emote Portrait Alive可以生成動(dòng)態(tài)的、表情豐富的肖像視頻。

#Ai工具箱 #Ai開源項(xiàng)目

Emote Portrait Alive簡(jiǎn)介

Emote Portrait Alive是阿里巴巴發(fā)布的EMO，一種音頻驅(qū)動(dòng)的AI肖像視頻生成框架。輸入單個(gè)參考圖像和聲音音頻，例如說話和唱歌，Emote Portrait Alive就可以生成具有表情豐富的面部表情和各種頭部姿勢(shì)的聲音肖像視頻，讓照片中的人物根據(jù)音頻內(nèi)容自然地張嘴說話或唱歌，面部表情和頭部姿態(tài)非常逼真。同時(shí)，我們可以根據(jù)輸入視頻的長(zhǎng)度生成任意持續(xù)時(shí)間的視頻。

Emote Portrait Alive功能和特點(diǎn)：

音頻驅(qū)動(dòng)的視頻生成：EMO能夠根據(jù)輸入的音頻（如說話或唱歌）直接生成視頻，無需依賴于預(yù)先錄制的視頻片段或3D面部模型。
高表現(xiàn)力和逼真度：生成的視頻具有高度的表現(xiàn)力，能夠捕捉并再現(xiàn)人類面部表情的細(xì)微差別，包括微妙的微表情，以及與音頻節(jié)奏相匹配的頭部運(yùn)動(dòng)。
無縫幀過渡：確保視頻幀之間的過渡自然流暢，避免了面部扭曲或幀間抖動(dòng)的問題，從而提高了視頻的整體質(zhì)量。
身份保持：通過FrameEncoding模塊，EMO能夠在視頻生成過程中保持角色身份的一致性，確保角色的外觀與輸入的參考圖像保持一致。
穩(wěn)定的控制機(jī)制：采用了速度控制器和面部區(qū)域控制器等穩(wěn)定控制機(jī)制，以增強(qiáng)視頻生成過程中的穩(wěn)定性，避免視頻崩潰等問題。
靈活的視頻時(shí)長(zhǎng)：可以根據(jù)輸入音頻的長(zhǎng)度生成任意時(shí)長(zhǎng)的視頻，為用戶提供了靈活的創(chuàng)作空間。
跨語言和跨風(fēng)格：訓(xùn)練數(shù)據(jù)集涵蓋了多種語言和風(fēng)格，包括中文和英文，以及現(xiàn)實(shí)主義、動(dòng)漫和3D風(fēng)格，使得EMO能夠適應(yīng)不同的文化和藝術(shù)風(fēng)格。

Emote Portrait Alive

Emote Portrait Alive應(yīng)用場(chǎng)景：

唱歌視頻生成：輸入一張人物肖像照片和唱歌音頻，EMO可以生成與音頻同步且富有表現(xiàn)力的唱歌視頻。
說話視頻生成：不僅限于唱歌，還可以處理說話音頻，生成與語音同步的說話視頻。
多語言支持：支持多種語言的音頻輸入，能夠生成不同語言下的人物肖像視頻。
跨風(fēng)格應(yīng)用：可以將不同風(fēng)格（如動(dòng)漫、3D模型等）的肖像圖像與音頻結(jié)合，生成具有特定風(fēng)格的視頻內(nèi)容。

Emote Portrait Alive不僅限于處理唱歌的音頻輸入，還可以容納各種語言的口語音頻。此外，Emote Portrait Alive還能夠?qū)⑦^去的老照片、繪畫以及 3D 模型和AI生成的內(nèi)容制作成視頻，為它們注入逼真的動(dòng)作和真實(shí)感。

AI Anime Generator

Teable