首頁 > Ai導航 > Ai工具箱 > Ai開源項目

DreamTalk

一個由清華大學、阿里巴巴和華中科大共同開發的一個基于擴散模型可以讓人物照片說話，支持包括歌曲、多種語言的語音、嘈雜的音頻在內的各種聲音匹配讓人物頭像說話的框架。

#Ai工具箱 #Ai開源項目

訪問DreamTalk

DreamTalk簡介

DreamTalk，一個由清華大學、阿里巴巴和華中科大共同開發的一個基于擴散模型可以讓人物照片說話，支持包括歌曲、多種語言的語音、嘈雜的音頻在內的各種聲音匹配讓人物頭像說話的框架。

DreamTalk演示地址：https://dreamtalk-project.github.io

DreamTalk項目地址：https://dreamtalk-project.github.io/

DreamTalk論文地址：https://arxiv.org/abs/2312.09767

DreamTalk--dreamtalk-project.github.jpg

DreamTalk使用場景：

使用 DreamTalk 生成具有多樣化語言和表情風格的說話人臉
應用 DreamTalk 在影視制作中實現逼真的虛擬角色表情動作
使用 DreamTalk 在人機交互場景中實現自然的面部表情和嘴唇運動

DreamTalk功能：

具體來說，DreamTalk 由三個關鍵組件組成：降噪網絡、風格感知唇部專家和風格預測器。基于擴散的降噪網絡能夠在不同的表情中一致地合成高質量的音頻驅動的面部運動。為了提高嘴唇動作的表現力和準確性，我們引入了一位具有風格意識的嘴唇專家，可以在注意說話風格的同時指導嘴唇同步。為了消除對表情參考視頻或文本的需求，使用額外的基于擴散的樣式預測器直接從音頻中預測目標表情。

1、去噪網絡：這是核心組件之一，負責生成音頻驅動的面部動作。去噪網絡使用擴散模型來逐步去除噪聲，從而生成清晰、高質量的面部表情。這個過程涉及從帶有噪聲的數據中逐步恢復出清晰的面部動作。

2、風格感知的嘴唇專家：這個組件專注于提高嘴唇動作的表現力和準確性。它通過分析說話風格來引導嘴唇同步，確保生成的動畫既自然又符合說話者的風格。

3、風格預測器：為了消除對表情參考視頻或文本的依賴，DreamTalk引入了一個基于擴散的風格預測器。這個預測器可以直接從音頻預測目標表情，無需額外的表情參考視頻或文本。

4、音頻和視頻處理：處理音頻輸入，提取關鍵的音頻特征，并將這些特征用于驅動面部動畫。同時，它還能處理視頻輸入，以提取和模仿特定的表情和風格。

5、數據和模型訓練：為了實現這些功能，DreamTalk需要大量的數據來訓練其模型，包括不同表情和說話風格的面部動畫數據。通過這些數據，模型學習如何準確地生成與輸入音頻匹配的面部動作。

DreamTalk可以利用強大的擴散模型有效地生成富有表現力的面孔，并減少對昂貴的風格參考的依賴。實驗結果表明，DreamTalk能夠生成具有不同說話風格的逼真的說話面孔，并實現準確的嘴唇動作，超越了現有的最先進的同類產品。

DreamTalk不僅能夠處理和生成它在訓練過程中見過的面部類型和表情，還能有效處理和生成它之前未見過的、來自不同數據集的面部類型和表情。

包括不同種族、年齡、性別的人物肖像，以及各種不同的表情和情緒。

賽博投簡歷

M2UGen