我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

MultiTalk:美團(tuán)開(kāi)源的音頻驅(qū)動(dòng)多人對(duì)話視頻生成工具

MultiTalk 是美團(tuán)視覺(jué)智能團(tuán)隊(duì)開(kāi)源的音頻驅(qū)動(dòng)多人對(duì)話視頻生成工具。它能根據(jù)多人音頻、參考圖像和文字提示,生成口型同步、肢體自然的數(shù)字人對(duì)話視頻,效果很好。用戶只需上傳音頻、參考圖和提示詞,就能生成嘴型匹配的對(duì)話視頻,還能生成歌唱場(chǎng)景和卡通角色。

這個(gè)項(xiàng)目有不少實(shí)用特點(diǎn):音頻驅(qū)動(dòng)的嘴型同步很精準(zhǔn),能用提示詞控制虛擬角色動(dòng)作,能輸出不同分辨率的視頻,還能生成長(zhǎng)達(dá) 15 秒的對(duì)話場(chǎng)景。另外,它集成了文本轉(zhuǎn)語(yǔ)音功能,做了多項(xiàng)優(yōu)化來(lái)提高生成效率,支持低顯存模式和多 GPU 推理,在單張 RTX 4090 顯卡上就能運(yùn)行。

MultiTalk:美團(tuán)開(kāi)源的音頻驅(qū)動(dòng)多人對(duì)話視頻生成工具

功能特征

?音頻驅(qū)動(dòng):輸入多人音頻,就能生成自然的口型同步和肢體動(dòng)作

?單張照片輸入:僅用一張參考圖像,就能生成多人互動(dòng)視頻

?復(fù)雜動(dòng)作遵循:支持復(fù)雜文字提示,生成符合描述的動(dòng)作和場(chǎng)景

?多語(yǔ)言支持:能處理多語(yǔ)言音頻,實(shí)現(xiàn)精準(zhǔn)的唇部同步

?長(zhǎng)視頻生成:用自回歸方法生成連貫的長(zhǎng)視頻

?高效訓(xùn)練策略:通過(guò)兩階段訓(xùn)練、部分參數(shù)訓(xùn)練和多任務(wù)訓(xùn)練,提升模型性能

?L-RoPE 技術(shù):借助標(biāo)簽旋轉(zhuǎn)位置編碼,實(shí)現(xiàn)多流音頻與人物的精準(zhǔn)綁定

?高質(zhì)量輸出:生成的視頻自然流暢,視覺(jué)上幾乎沒(méi)有偽影

技術(shù)亮點(diǎn)

?首創(chuàng) L-RoPE 技術(shù):用標(biāo)簽旋轉(zhuǎn)位置編碼解決多音頻流與人物錯(cuò)位問(wèn)題,讓音頻和人物精準(zhǔn)對(duì)應(yīng)

?音頻驅(qū)動(dòng)視頻生成:輸入多人音頻、參考圖像和文字提示,就能生成口型同步、肢體自然的交互視頻

?局部參數(shù)訓(xùn)練 + 多任務(wù)學(xué)習(xí)策略:在保留復(fù)雜動(dòng)作指令跟隨能力的同時(shí),實(shí)現(xiàn)動(dòng)態(tài)人物的自適應(yīng)定位

?多場(chǎng)景支持:可用于影視制作、直播電商等多種場(chǎng)景

技術(shù)框架

?基礎(chǔ)模型結(jié)構(gòu):以 DiT 視頻擴(kuò)散模型為核心,集成 3D 變分自編碼器,高效處理視頻數(shù)據(jù)

?單人音頻集成:在每個(gè) DiT 塊的文本交叉注意力層后添加音頻交叉注意力機(jī)制,用 Wav2Vec 提取音頻特征,通過(guò)音頻適配器解決視頻和音頻時(shí)間粒度不匹配的問(wèn)題

?多人音頻處理:靠 L-RoPE 技術(shù)實(shí)現(xiàn)多流音頻與多個(gè)人物的精準(zhǔn)綁定,避免 “齊聲說(shuō)話”

訓(xùn)練策略:

?兩階段訓(xùn)練:先練單人視頻生成能力,再練多人物交互和綁定

?部分參數(shù)訓(xùn)練:只更新音頻交叉注意力層和音頻適配器的網(wǎng)絡(luò)參數(shù),凍結(jié)其他基礎(chǔ)模型參數(shù)

?多任務(wù)訓(xùn)練:結(jié)合音頻 + 圖像到視頻、圖像到視頻兩種訓(xùn)練方式,增強(qiáng)模型的指令遵循能力

MultiTalk技術(shù)框架

性能表現(xiàn)

?定量評(píng)估:在頭部和身體動(dòng)作生成任務(wù)中,和多個(gè)先進(jìn)方法相比,在唇形同步(Sync-C、Sync-D)和視頻質(zhì)量(FID、FVD)上表現(xiàn)突出

?定性評(píng)估:處理復(fù)雜交互場(chǎng)景時(shí)效果好,能生成精準(zhǔn)響應(yīng)復(fù)雜文字提示的視頻,視覺(jué)偽影少,畫(huà)面自然真實(shí)

?長(zhǎng)視頻生成:用自回歸方法,把之前生成視頻的末尾部分作為條件,生成新的視頻片段,保證時(shí)間上的連貫和擴(kuò)展

適用場(chǎng)景

  • 影視制作:虛擬角色互動(dòng)、動(dòng)畫(huà)配音、特效合成、短片創(chuàng)作

  • 直播電商:虛擬主播互動(dòng)、產(chǎn)品展示解說(shuō)、多語(yǔ)言直播

  • 教育領(lǐng)域:虛擬教師互動(dòng)、語(yǔ)言學(xué)習(xí)、歷史重現(xiàn)

  • 游戲開(kāi)發(fā):虛擬角色對(duì)話、NPC 互動(dòng)、多人在線游戲

  • 廣告營(yíng)銷(xiāo):虛擬代言人、產(chǎn)品推廣、社交媒體廣告

  • 虛擬社交:虛擬社交平臺(tái)互動(dòng)、虛擬會(huì)議

  • 娛樂(lè)創(chuàng)意:音樂(lè)視頻、虛擬演唱會(huì)、創(chuàng)意短片

  • 公共服務(wù):新聞播報(bào)、公共服務(wù)宣傳

  • 企業(yè)培訓(xùn):虛擬培訓(xùn)場(chǎng)景、情景模擬

  • 國(guó)際交流:多語(yǔ)言對(duì)話、文化交流

項(xiàng)目地址

項(xiàng)目主頁(yè):https://meigen-ai.github.io/multi-talk/

開(kāi)源代碼:https://github.com/MeiGen-AI/MultiTalk

論文技術(shù):https://arxiv.org/abs/2505.22647

收藏
最新工具
PrettyScale
PrettyScale

一個(gè)在線面部分析及顏值打分網(wǎng)站,用戶通過(guò)上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書(shū)這些平臺(tái)導(dǎo)入別...

Wonderplan AI
Wonderplan AI

一個(gè)免費(fèi)的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專(zhuān)屬行程,支...

智寫(xiě)流程
智寫(xiě)流程

一個(gè)能自動(dòng)記錄網(wǎng)頁(yè)操作并生成操作指南的工具。它能捕捉鼠標(biāo)點(diǎn)擊、鍵...

ReactBits
ReactBits

一個(gè)免費(fèi)開(kāi)源的動(dòng)畫(huà)化、可交互React組件庫(kù),里面有好多動(dòng)畫(huà)化、...

電視眼
電視眼

也叫TV眼,是一個(gè)在線網(wǎng)絡(luò)電視直播網(wǎng)站,提供全國(guó)5000+個(gè)電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動(dòng)把 Excel 或 CSV 文件變成帶交互功能的儀表盤(pán)...

ByRutor
ByRutor

俄羅斯的一個(gè)免費(fèi)游戲資源下載網(wǎng)站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個(gè)可以隨機(jī)展示全球谷歌街景照片的網(wǎng)站,每次點(diǎn)按鈕,系統(tǒng)會(huì)隨機(jī)選...

ZType
ZType

官網(wǎng):zty.pe,一個(gè)把打字練習(xí)和射擊游戲結(jié)合的在線工具。玩家...

主站蜘蛛池模板: 定安县| 墨江| 四平市| 大安市| 黄冈市| 镇原县| 景宁| 楚雄市| 马边| 镇安县| 普陀区| 丰都县| 尖扎县| 安泽县| 吕梁市| 翁牛特旗| 全椒县| 剑川县| 偏关县| 乾安县| 塘沽区| 静海县| 阿勒泰市| 新兴县| 蓬莱市| 绥棱县| 吴桥县| 武胜县| 会同县| 福清市| 奎屯市| 钦州市| 武义县| 嘉峪关市| 龙里县| 四子王旗| 南川市| 图片| 柳河县| 新巴尔虎左旗| 宜都市|