ChatAnyone:阿里發布的通過音頻輸入生成具有豐富表情和上半身動作的肖像視頻
ChatAnyone 是什么?
ChatAnyone 是一個由阿里巴巴集團通義實驗室開發的實時風格化肖像視頻生成框架,實現從“會說話的頭”到上半身互動的高保真動畫生成,支持多樣化的面部表情和風格控制。適用于實時視頻聊天、虛擬主播、ai 助手等場景。
ChatAnyone 技術方法
高效分層運動擴散模型(Hierarchical Motion Diffusion Model)
輸入:音頻信號。
輸出:面部和身體的控制信號,考慮顯式和隱式的運動信號。
功能:生成多樣化的面部表情,并實現頭部與身體動作的同步。
細粒度表情控制:支持不同強度的表情變化,以及從參考視頻中轉移風格化的表情。
混合控制融合生成模型(Hybrid Control Fusion Generative Model)
面部表情生成:結合顯式地標和隱式偏移量,生成逼真的面部表情。
手部動作控制:注入顯式的手部控制信號,生成更準確和逼真的手部動作。
面部優化模塊:增強面部的逼真度,確保生成的肖像視頻具有高度的表達性和真實感。
可擴展的實時生成框架
靈活性:支持從頭部驅動的動畫到包含手勢的上半身生成。
實時性:在 4090 GPU 上,以最高 512×768 分辨率、30fps 的速度實時生成上半身肖像視頻。
ChatAnyone 實驗結果
音頻驅動的上半身動畫:生成具有高度表達性的上半身數字人視頻,支持有手和無手的場景。
音頻驅動的頭部動畫:實現高精度的口型同步,生成自然的頭部姿勢和豐富的面部表情。
音頻驅動的風格化動畫:支持生成風格化角色的動畫,同時適用于生成富有表現力的唱歌視頻。
雙主持 AI 播客演示:能夠生成雙主持播客,支持 AI 驅動的對話。
實時交互演示:在 4090 GPU 上實現 30fps 的實時生成,支持實際的交互式視頻聊天應用。
ChatAnyone 優勢
高保真度和自然度:生成的肖像視頻具有豐富的表情和自然的上半身動作。
實時性:支持實時交互,適用于視頻聊天等應用場景。
風格化控制:可以根據需求調整表情風格,實現個性化的動畫生成。
ChatAnyone 的應用場景
虛擬主播與視頻會議
虛擬主播用于新聞播報、直播帶貨。
視頻會議中提供虛擬形象,增強互動性。
內容創作與娛樂
動畫制作:生成風格化動畫角色。
虛擬演唱會:生成虛擬歌手或表演者的實時動畫。
AI 播客:生成雙主持播客的虛擬形象。
教育與培訓
在線教育:生成虛擬教師形象。
培訓模擬:生成虛擬角色進行互動對話。
客戶服務
智能客服:生成虛擬客服形象。
客戶互動:提供生動的解答和互動。
營銷與廣告
虛擬代言人:生成品牌代言人形象。
廣告視頻:生成互動性強的廣告內容。
社交娛樂
匿名聊天:生成虛擬形象保護隱私。
社交平臺:生成個性化虛擬形象。
醫療健康
虛擬健康咨詢:生成虛擬醫生形象。
康復訓練:生成虛擬康復教練。
其他
虛擬導游:用于旅游規劃和景點介紹。
新聞播報:生成虛擬新聞主播。
相關鏈接
項目地址:https://github.com/HumanAIGC/chat-anyone
論文地址:https://arxiv.org/abs/2506.00920