
InspireMusic
InspireMusic簡(jiǎn)介
InspireMusic是由阿里巴巴通義實(shí)驗(yàn)室推出的開源音樂生成框架,其技術(shù)架構(gòu)集成了多項(xiàng)音頻領(lǐng)域前沿研究成果,為開發(fā)者和研究者提供音樂創(chuàng)作、風(fēng)格轉(zhuǎn)換及音效合成的全流程解決方案。該框架依托多模態(tài)大模型技術(shù),支持通過文本描述或音頻輸入進(jìn)行智能化創(chuàng)作,同時(shí)提供完善的模型調(diào)優(yōu)工具鏈。
InspireMusic的文生音樂創(chuàng)作模式非常強(qiáng)。它支持通過文字描述生成各種風(fēng)格和情感的音樂,用戶可以根據(jù)個(gè)人喜好生成爵士樂或旋律悠揚(yáng)的童謠等多樣化作品。
InspireMusic核心功能:
音樂生成:InspireMusic可以基于用戶提供的文本描述,例如情感、風(fēng)格、和聲等信息,自動(dòng)生成符合要求的音樂作品。
音頻樣式轉(zhuǎn)換:該技術(shù)支持將現(xiàn)有音頻樣本轉(zhuǎn)換為不同風(fēng)格的音樂,使用戶可以輕松實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換的效果。
訓(xùn)練和調(diào)優(yōu)工具:InspireMusic為開發(fā)者提供了一系列音頻生成模型的訓(xùn)練和調(diào)優(yōu)工具,以優(yōu)化生成效果,滿足個(gè)性化需求。
多模態(tài)應(yīng)用:通過結(jié)合文本、音頻及其交互,InspireMusic能夠提供豐富的音樂創(chuàng)作體驗(yàn),支持多種類型的音樂生成與編輯功能。
主要特點(diǎn)
統(tǒng)一的音頻生成框架:基于音頻大模型技術(shù),InspireMusic支持音樂、歌曲及音頻的生成,為用戶提供多樣化選擇;
靈活可控生成:基于文本提示和音樂特征描述,用戶可精準(zhǔn)控制生成音樂的風(fēng)格和結(jié)構(gòu);
簡(jiǎn)單易用:簡(jiǎn)便的模型微調(diào)和推理工具,為用戶提供高效的訓(xùn)練與調(diào)優(yōu)工具。
InspireMusic主要技術(shù)原理:
音頻Tokenizer:通過高壓縮比的單碼本W(wǎng)avTokenizer,將輸入的連續(xù)音頻特征轉(zhuǎn)換為離散的音頻token,支持模型處理的音頻數(shù)據(jù)格式。
自回歸Transformer模型:該模型基于Qwen模型進(jìn)行初始化,用于根據(jù)文本提示預(yù)測(cè)音頻token,能夠理解并生成與文本描述匹配的音樂序列。
擴(kuò)散模型(Conditional Flow Matching, CFM):用于從生成的音頻token中恢復(fù)高質(zhì)量音頻特征,增強(qiáng)音樂生成的連貫性和自然度。
Vocoder:將重建后的音頻特征轉(zhuǎn)換為高質(zhì)量的音頻波形,最終輸出音樂作品。它支持多種采樣率(如24kHz和48kHz),并能夠生成超過5分鐘的長音頻作品。
核心模型:
InspireMusic模型框架:由音頻tokenizer、自回歸Transformer模型、基于常微分方程的擴(kuò)散模型即Conditional Flow Matching (CFM)模型、Vocoder所組成,可支持文本生成音樂、音樂續(xù)寫等任務(wù)。
InspireMusic的應(yīng)用:
音樂創(chuàng)作:用戶通過簡(jiǎn)單的文字描述或音頻提示生成多種風(fēng)格的音樂作品。
教育和學(xué)習(xí):該工具包為音樂愛好者和學(xué)習(xí)者提供了一個(gè)易于使用的創(chuàng)作平臺(tái)。
游戲和娛樂:InspireMusic可以用于生成游戲背景音樂或音效。
影視制作:用于影視配樂和音效制作。
廣告和營銷:InspireMusic可以生成符合廣告需求的音樂。
科研和開發(fā):為研究者和開發(fā)者提供音樂生成模型的訓(xùn)練和調(diào)優(yōu)工具。
使用方式:
近日,阿里通義實(shí)驗(yàn)室宣布旗下音樂生成技術(shù)InspireMusic已正式開源。用戶可以通過GitHub倉庫、ModelScope創(chuàng)空間以及HuggingFace Spaces等平臺(tái)訪問和使用InspireMusic。
GitHub 倉庫:https://github.com/FunAudioLLM/InspireMusic
ModelScope:https://modelscope.cn/studios/iic/InspireMusic/summary
HuggingFace:https://huggingface.co/spaces/FunAudioLLM/InspireMusic