
Emote Portrait Alive
Emote Portrait Alive簡介
Emote Portrait Alive是阿里巴巴發布的EMO,一種音頻驅動的AI肖像視頻生成框架。輸入單個參考圖像和聲音音頻,例如說話和唱歌,Emote Portrait Alive就可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音肖像視頻,讓照片中的人物根據音頻內容自然地張嘴說話或唱歌,面部表情和頭部姿態非常逼真。同時,我們可以根據輸入視頻的長度生成任意持續時間的視頻。
Emote Portrait Alive功能和特點:
音頻驅動的視頻生成:EMO能夠根據輸入的音頻(如說話或唱歌)直接生成視頻,無需依賴于預先錄制的視頻片段或3D面部模型。
高表現力和逼真度:生成的視頻具有高度的表現力,能夠捕捉并再現人類面部表情的細微差別,包括微妙的微表情,以及與音頻節奏相匹配的頭部運動。
無縫幀過渡:確保視頻幀之間的過渡自然流暢,避免了面部扭曲或幀間抖動的問題,從而提高了視頻的整體質量。
身份保持:通過FrameEncoding模塊,EMO能夠在視頻生成過程中保持角色身份的一致性,確保角色的外觀與輸入的參考圖像保持一致。
穩定的控制機制:采用了速度控制器和面部區域控制器等穩定控制機制,以增強視頻生成過程中的穩定性,避免視頻崩潰等問題。
靈活的視頻時長:可以根據輸入音頻的長度生成任意時長的視頻,為用戶提供了靈活的創作空間。
跨語言和跨風格:訓練數據集涵蓋了多種語言和風格,包括中文和英文,以及現實主義、動漫和3D風格,使得EMO能夠適應不同的文化和藝術風格。
Emote Portrait Alive應用場景:
唱歌視頻生成:輸入一張人物肖像照片和唱歌音頻,EMO可以生成與音頻同步且富有表現力的唱歌視頻。
說話視頻生成:不僅限于唱歌,還可以處理說話音頻,生成與語音同步的說話視頻。
多語言支持:支持多種語言的音頻輸入,能夠生成不同語言下的人物肖像視頻。
跨風格應用:可以將不同風格(如動漫、3D模型等)的肖像圖像與音頻結合,生成具有特定風格的視頻內容。
Emote Portrait Alive不僅限于處理唱歌的音頻輸入,還可以容納各種語言的口語音頻。此外,Emote Portrait Alive還能夠將過去的老照片、繪畫以及 3D 模型和AI生成的內容制作成視頻,為它們注入逼真的動作和真實感。