OmniTalker:阿里推出的一款實時文本驅動的說話頭像多模態生成框架多模態框架
OmniTalker 是什么?
OmniTalker是阿里巴巴通義實驗室研發的一款實時文本驅動的說話頭像ai多模態生成框架。它可以根據輸入的文本內容,實時生成與之匹配的語音和視頻動畫。生成的語音和視頻不僅高質量,還能逼真地模擬面部表情和頭部動作,仿佛是一個真實的“數字人”在與你對話。OmniTalker支持中英文互轉,支持情感表達,比如平靜、快樂、悲傷、憤怒等等情緒并支持長視頻生成。
OmniTalker功能特點
多模態輸入處理:能夠感知文本、圖像、音頻和視頻等多種模態。
流式生成:以流式方式生成文本和自然語音響應,音頻和視頻編碼器采用按塊處理方法,解耦了對長序列多模態數據的處理。
音視頻精準同步:通過 TMRoPE 技術,確保視頻與音頻輸入的精準同步。
實時交互:支持分塊輸入和即時輸出,能夠進行完全實時交互。
語音生成自然流暢:在語音生成的自然性和穩定性方面表現優異,超越了許多現有的流式和非流式替代方案。
性能優勢:在多模態基準測試中表現出色,音頻能力優于類似大小的 Qwen2-Audio,并與 Qwen2.5-VL-7B 保持同等水平。
OmniTalker核心技術
1. 雙分支擴散變換器(DiT)架構
包含 音頻分支 和 視覺分支:
音頻分支:從文本中合成高質量的語音。
視覺分支:預測頭部姿勢和面部動態。
通過一個新穎的 音頻-視覺融合模塊,確保音頻和視頻輸出在時間上的同步性和風格上的一致性。
2. 上下文參考學習
OmniTalker 能夠從單個參考視頻中捕獲語音和面部風格特征,無需額外的風格提取模塊。這意味著,無論輸入的文本是什么,OmniTalker 都能夠生成與參考視頻風格高度一致的語音和視頻內容。
3. 實時性與高效性
OmniTalker 能夠以 25 FPS 的速度實時生成語音和視頻,這在同類技術中是非常領先的。這種高效的推理速度使得 OmniTalker 可以應用于實時視頻聊天、虛擬直播等場景,為用戶帶來流暢的交互體驗。
OmniTalker應用場景
智能語音助手:處理用戶的語音指令,實時生成語音回應。
多模態內容創作:同時處理文本、圖像和視頻輸入,生成相應的文本或語音描述。
教育與培訓:生成虛擬教師,根據教學內容生成語音和視頻。
虛擬客服與助手:創建虛擬客服或助手,實時生成語音和視頻回應。
娛樂與媒體:創建虛擬主播、演員,實時生成表演內容。
OmniTalker優勢
高質量生成:生成的語音和視頻內容質量高,能精準復制參考視頻的風格,包括語音語調、節奏和面部表情的細微變化。
零樣本學習:無需大量訓練數據,可根據輸入文本和參考視頻快速生成內容,適應不同場景和需求。
實時交互:以25 FPS的速度實時生成語音和視頻,延遲低,適用于實時視頻聊天、虛擬直播等場景。
項目官網:https://humanaigc.github.io/omnitalker/
技術論文:https://arxiv.org/pdf/2504.02433v1