首頁 > Ai資訊 > Ai產品

MultiTalk：美團開源的音頻驅動多人對話視頻生成工具

映技派于2025-07-21發布在Ai產品

MultiTalk 是美團視覺智能團隊開源的音頻驅動多人對話視頻生成工具。它能根據多人音頻、參考圖像和文字提示，生成口型同步、肢體自然的數字人對話視頻，效果很好。用戶只需上傳音頻、參考圖和提示詞，就能生成嘴型匹配的對話視頻，還能生成歌唱場景和卡通角色。

這個項目有不少實用特點：音頻驅動的嘴型同步很精準，能用提示詞控制虛擬角色動作，能輸出不同分辨率的視頻，還能生成長達 15 秒的對話場景。另外，它集成了文本轉語音功能，做了多項優化來提高生成效率，支持低顯存模式和多 GPU 推理，在單張 RTX 4090 顯卡上就能運行。

功能特征

?音頻驅動：輸入多人音頻，就能生成自然的口型同步和肢體動作

?單張照片輸入：僅用一張參考圖像，就能生成多人互動視頻

?復雜動作遵循：支持復雜文字提示，生成符合描述的動作和場景

?多語言支持：能處理多語言音頻，實現精準的唇部同步

?長視頻生成：用自回歸方法生成連貫的長視頻

?高效訓練策略：通過兩階段訓練、部分參數訓練和多任務訓練，提升模型性能

?L-RoPE 技術：借助標簽旋轉位置編碼，實現多流音頻與人物的精準綁定

?高質量輸出：生成的視頻自然流暢，視覺上幾乎沒有偽影

技術亮點

?首創 L-RoPE 技術：用標簽旋轉位置編碼解決多音頻流與人物錯位問題，讓音頻和人物精準對應

?音頻驅動視頻生成：輸入多人音頻、參考圖像和文字提示，就能生成口型同步、肢體自然的交互視頻

?局部參數訓練 + 多任務學習策略：在保留復雜動作指令跟隨能力的同時，實現動態人物的自適應定位

?多場景支持：可用于影視制作、直播電商等多種場景

技術框架

?基礎模型結構：以 DiT 視頻擴散模型為核心，集成 3D 變分自編碼器，高效處理視頻數據

?單人音頻集成：在每個 DiT 塊的文本交叉注意力層后添加音頻交叉注意力機制，用 Wav2Vec 提取音頻特征，通過音頻適配器解決視頻和音頻時間粒度不匹配的問題

?多人音頻處理：靠 L-RoPE 技術實現多流音頻與多個人物的精準綁定，避免 “齊聲說話”

訓練策略：

?兩階段訓練：先練單人視頻生成能力，再練多人物交互和綁定

?部分參數訓練：只更新音頻交叉注意力層和音頻適配器的網絡參數，凍結其他基礎模型參數

?多任務訓練：結合音頻 + 圖像到視頻、圖像到視頻兩種訓練方式，增強模型的指令遵循能力

MultiTalk技術框架

性能表現

?定量評估：在頭部和身體動作生成任務中，和多個先進方法相比，在唇形同步（Sync-C、Sync-D）和視頻質量（FID、FVD）上表現突出

?定性評估：處理復雜交互場景時效果好，能生成精準響應復雜文字提示的視頻，視覺偽影少，畫面自然真實

?長視頻生成：用自回歸方法，把之前生成視頻的末尾部分作為條件，生成新的視頻片段，保證時間上的連貫和擴展

適用場景

影視制作：虛擬角色互動、動畫配音、特效合成、短片創作
直播電商：虛擬主播互動、產品展示解說、多語言直播
教育領域：虛擬教師互動、語言學習、歷史重現
游戲開發：虛擬角色對話、NPC 互動、多人在線游戲
廣告營銷：虛擬代言人、產品推廣、社交媒體廣告
虛擬社交：虛擬社交平臺互動、虛擬會議
娛樂創意：音樂視頻、虛擬演唱會、創意短片
公共服務：新聞播報、公共服務宣傳
企業培訓：虛擬培訓場景、情景模擬
國際交流：多語言對話、文化交流

項目地址

項目主頁：https://meigen-ai.github.io/multi-talk/

開源代碼：https://github.com/MeiGen-AI/MultiTalk

論文技術：https://arxiv.org/abs/2505.22647

You-Get：一款輕量級、開源的??命令行視頻下載工具

ColQwen-Omni：一款開源的多模態RAG模型

PosterCraft：高質量海報生成框架

PosterCraft：高質量海報生成框架

2025-06-24

GUIRoboTron-Speech：美團與浙江大推

GUIRoboTron-Speech：美團與浙江大推

2025-06-21

美團一個外賣公司為什么要搞一個AI編程工具NoCod

美團一個外賣公司為什么要搞一個AI編程工具NoCod

2025-06-11

我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

MultiTalk：美團開源的音頻驅動多人對話視頻生成工具

功能特征

技術亮點

技術框架

訓練策略：

性能表現

適用場景

項目地址

相關文章

最新文章

最新工具