ACE-Step:一個新型開源音樂生成基礎模型
ACE-Step是什么?
ACE-Step 是一個由 ACE Studio 與 StepFun 聯(lián)合開發(fā)的新型開源音樂生成基礎模型,它通過整合基于擴散的生成技術(shù)、Sana 的深度壓縮自動編碼器和輕量級線性變壓器,克服了現(xiàn)有音樂生成方法在生成速度、音樂連貫性和可控性方面的局限。該模型在 A100 GPU 上 20 秒內(nèi)可合成長達 4 分鐘的音樂,比基于 LLM 的基線快 15 倍,且在旋律、和聲和節(jié)奏指標上實現(xiàn)了更好的音樂連貫性和歌詞對齊,還支持語音克隆、歌詞編輯等高級控制機制,同時也列出了模型存在輸出不一致、特定風格表現(xiàn)不佳等局限性。
ACE-Step核心架構(gòu)
ACE-Step 通過整合擴散模型、深度壓縮自編碼器和輕量級線性變換器,并利用 MERT 和 m-hubert 在訓練期間對齊語義表示(REPA),實現(xiàn)了快速收斂。這種架構(gòu)設計使其在生成速度、音樂連貫性和可控性之間取得了平衡。
ACE-Step優(yōu)勢
生成速度:ACE-Step 在 NVIDIA A100 GPU 上僅需 20 秒即可生成長達 4 分鐘的音樂,比基于大型語言模型(LLM)的基線方法快 15 倍。
音樂連貫性:該模型在旋律、和聲和節(jié)奏指標上表現(xiàn)出優(yōu)越的音樂連貫性和歌詞對齊能力。
細節(jié)保留:ACE-Step 保留了細粒度的聲學細節(jié),支持高級控制機制,例如聲音克隆、歌詞編輯、混音和音軌生成。
ACE-Step功能特點
風格多樣:支持主流音樂風格,能處理多種描述格式,如短標簽、描述性文本或應用場景描述,在實驗性輸入測試中也表現(xiàn)良好,還可生成多種樂器的器樂曲目。
多語言支持:支持 19 種語言,但受數(shù)據(jù)不平衡影響,部分語言表現(xiàn)欠佳,表現(xiàn)較好的前 10 種語言包括英語、中文、俄語等。
可控性強:
Variations Generation:利用無訓練的推理時間優(yōu)化技術(shù),通過調(diào)整初始噪聲和新增高斯噪聲的混合比例,生成與原曲相似度不同的變體。
Repaint:通過對目標音頻輸入添加噪聲并在 ODE 過程中應用掩碼約束,可修改特定部分,還能結(jié)合變體生成技術(shù)實現(xiàn)局部風格、歌詞或人聲變化。
Edit:運用 flow-edit 技術(shù),能在不改變旋律、人聲音色和背景音樂的情況下修改歌詞,但一次只能修改小段歌詞。
ACE-Step應用場景
Lyric2Vocal(LoRA):基于純?nèi)寺晹?shù)據(jù)的 LoRA 微調(diào),可從歌詞直接生成人聲樣本,用于聲樂演示、歌曲創(chuàng)作輔助等。
Text2Samples(LoRA):基于純樂器和樣本數(shù)據(jù)的 LoRA 微調(diào),能根據(jù)文本描述生成概念性音樂制作樣本,用于創(chuàng)建樂器循環(huán)、音效等。
ACE-Step局限性
輸出不一致:對隨機種子和輸入時長敏感,結(jié)果不穩(wěn)定。
風格表現(xiàn)不均:在某些特定風格(如中文說唱)上表現(xiàn)欠佳。
連續(xù)性問題:重繪或擴展操作時過渡不自然。
人聲質(zhì)量待提升:合成的人聲較粗糙,缺乏細節(jié)。
控制粒度不足:需要更精細的音樂參數(shù)控制。
多語言歌詞優(yōu)化:需提高對多語言歌詞的支持,增強準確性和自然度。
ACE-Step常見問題
ACE-Step 與其他音樂生成模型相比,最大的優(yōu)勢是什么?
答:ACE-Step 最大的優(yōu)勢在于它解決了現(xiàn)有模型在生成速度、音樂連貫性和可控性之間的權(quán)衡問題。它能在 A100 GPU 上 20 秒內(nèi)合成長達 4 分鐘的音樂,比基于 LLM 的基線模型快 15 倍,同時在旋律、和聲和節(jié)奏指標上實現(xiàn)更好的音樂連貫性和歌詞對齊,還具備強大的可控功能,如語音克隆、歌詞編輯等,這些功能是其他模型難以同時實現(xiàn)的。
ACE-Step 在多語言支持方面存在哪些問題?
答:ACE-Step 雖支持 19 種語言,但受數(shù)據(jù)不平衡影響,不太常見的語言表現(xiàn)欠佳。在處理多語言歌詞時,準確性和自然度有待提高,需要進一步優(yōu)化對多語言歌詞的支持,以提升模型在不同語言下的整體表現(xiàn)。
ACE-Step 的應用場景中,Lyric2Vocal 和 Text2Samples 分別適用于哪些創(chuàng)作環(huán)節(jié)?
答:Lyric2Vocal 基于純?nèi)寺晹?shù)據(jù)的 LoRA 微調(diào),適用于歌曲創(chuàng)作中的聲樂演示環(huán)節(jié),幫助創(chuàng)作者快速測試歌詞演唱效果,還可用于制作引導曲目、輔助歌曲創(chuàng)作和進行聲樂編排實驗。Text2Samples 基于純樂器和樣本數(shù)據(jù)的 LoRA 微調(diào),適用于音樂制作前期快速創(chuàng)建樂器循環(huán)、音效以及各種音樂元素,為音樂制作提供概念性樣本,提高創(chuàng)作效率。
相關(guān)鏈接
https://ace-step.github.io/