首頁 > Ai導航 > Ai工具箱 > Ai開源項目

M2UGen

一款融合了音樂理解和多模態音樂生成任務，旨在助力用戶進行音樂藝術創作的引領潮流的框架。

#Ai工具箱 #Ai開源項目

訪問M2UGen

M2UGen簡介

騰訊發布多模態音樂生成模型M2UGen 支持圖片、視頻生成音樂，M2UGen是一款引領潮流的框架，融合了音樂理解和多模態音樂生成任務，旨在助力用戶進行音樂藝術創作。通過其強大的功能，M2UGen提供了全方位的音樂生成和編輯體驗。

M2UGen演示地址：https://huggingface.co/M2UGen

M2UGen項目地址：https://github.com/shansongliu/M2UGen

M2UGen論文地址：https://arxiv.org/abs/2311.11255

M型2UGen模型是一種音樂理解和生成模型，能夠從文本，圖像，視頻和音頻中進行音樂問答和音樂生成，以及音樂編輯。該模型利用編碼器，如用于音樂理解的 MERT、用于圖像理解的 ViT 和用于視頻理解的 ViViT，以及 MusicGen/AudioLDM2 模型作為音樂生成模型（音樂解碼器），以及適配器和 LLaMA 2 模型。

M2UGen---crypto-code.github.jpg

音樂的產生和理解

我們介紹M2UGen框架，能夠同時包括音樂理解和多模態音樂生成任務，旨在協助用戶進行與音樂相關的藝術創作。

面向音樂的數據集

我們提出了一種系統化的方法，用于生成大面向多模態音樂的指令數據集，我們使用 MU-LLaMA 模型和 MosaicML 的 MPT-7B-Chat 模型來生成面向音樂的數據集。

我們還利用BLIP圖像字幕模型和VideoMAE字幕模型來為各自的模態添加字幕。

除了可以從文字生成音樂外，它還支持圖像、視頻和音頻生成音樂，并且還可以編輯已有的音樂。該項目利用了MERT等編碼器進行音樂理解，ViT進行圖像理解，ViViT進行視頻理解，并使用MusicGen/AudioLDM2模型作為音樂生成模型（音樂解碼器）。用戶可以輕松移除或替換特定樂器，調整音樂的節奏和速度。這使得用戶能夠創造出符合其獨特創意的音樂作品。

此外，M2UGen還加入了適配器和LLaMA2模型，使得該模型具備多種能力。

DreamTalk

HandRefiner