ACE-Step：一個(gè)新型開(kāi)源音樂(lè)生成基礎(chǔ)模型

ACE-Step于2025-05-06發(fā)布在Ai產(chǎn)品

ACE-Step是什么？

ACE-Step 是一個(gè)由 ACE Studio 與 StepFun 聯(lián)合開(kāi)發(fā)的新型開(kāi)源音樂(lè)生成基礎(chǔ)模型，它通過(guò)整合基于擴(kuò)散的生成技術(shù)、Sana 的深度壓縮自動(dòng)編碼器和輕量級(jí)線性變壓器，克服了現(xiàn)有音樂(lè)生成方法在生成速度、音樂(lè)連貫性和可控性方面的局限。該模型在 A100 GPU 上 20 秒內(nèi)可合成長(zhǎng)達(dá) 4 分鐘的音樂(lè)，比基于 LLM 的基線快 15 倍，且在旋律、和聲和節(jié)奏指標(biāo)上實(shí)現(xiàn)了更好的音樂(lè)連貫性和歌詞對(duì)齊，還支持語(yǔ)音克隆、歌詞編輯等高級(jí)控制機(jī)制，同時(shí)也列出了模型存在輸出不一致、特定風(fēng)格表現(xiàn)不佳等局限性。

ACE-Step：一個(gè)新型開(kāi)源音樂(lè)生成基礎(chǔ)模型.webp

ACE-Step核心架構(gòu)

ACE-Step 通過(guò)整合擴(kuò)散模型、深度壓縮自編碼器和輕量級(jí)線性變換器，并利用 MERT 和 m-hubert 在訓(xùn)練期間對(duì)齊語(yǔ)義表示（REPA），實(shí)現(xiàn)了快速收斂。這種架構(gòu)設(shè)計(jì)使其在生成速度、音樂(lè)連貫性和可控性之間取得了平衡。

ACE-Step優(yōu)勢(shì)

生成速度：ACE-Step 在 NVIDIA A100 GPU 上僅需 20 秒即可生成長(zhǎng)達(dá) 4 分鐘的音樂(lè)，比基于大型語(yǔ)言模型（LLM）的基線方法快 15 倍。
音樂(lè)連貫性：該模型在旋律、和聲和節(jié)奏指標(biāo)上表現(xiàn)出優(yōu)越的音樂(lè)連貫性和歌詞對(duì)齊能力。
細(xì)節(jié)保留：ACE-Step 保留了細(xì)粒度的聲學(xué)細(xì)節(jié)，支持高級(jí)控制機(jī)制，例如聲音克隆、歌詞編輯、混音和音軌生成。

ACE-Step功能特點(diǎn)

風(fēng)格多樣：支持主流音樂(lè)風(fēng)格，能處理多種描述格式，如短標(biāo)簽、描述性文本或應(yīng)用場(chǎng)景描述，在實(shí)驗(yàn)性輸入測(cè)試中也表現(xiàn)良好，還可生成多種樂(lè)器的器樂(lè)曲目。
多語(yǔ)言支持：支持 19 種語(yǔ)言，但受數(shù)據(jù)不平衡影響，部分語(yǔ)言表現(xiàn)欠佳，表現(xiàn)較好的前 10 種語(yǔ)言包括英語(yǔ)、中文、俄語(yǔ)等。
可控性強(qiáng)：

Variations Generation：利用無(wú)訓(xùn)練的推理時(shí)間優(yōu)化技術(shù)，通過(guò)調(diào)整初始噪聲和新增高斯噪聲的混合比例，生成與原曲相似度不同的變體。
Repaint：通過(guò)對(duì)目標(biāo)音頻輸入添加噪聲并在 ODE 過(guò)程中應(yīng)用掩碼約束，可修改特定部分，還能結(jié)合變體生成技術(shù)實(shí)現(xiàn)局部風(fēng)格、歌詞或人聲變化。
Edit：運(yùn)用 flow-edit 技術(shù)，能在不改變旋律、人聲音色和背景音樂(lè)的情況下修改歌詞，但一次只能修改小段歌詞。

ACE-Step功能特點(diǎn).webp

ACE-Step應(yīng)用場(chǎng)景

Lyric2Vocal（LoRA）：基于純?nèi)寺晹?shù)據(jù)的 LoRA 微調(diào)，可從歌詞直接生成人聲樣本，用于聲樂(lè)演示、歌曲創(chuàng)作輔助等。
Text2Samples（LoRA）：基于純樂(lè)器和樣本數(shù)據(jù)的 LoRA 微調(diào)，能根據(jù)文本描述生成概念性音樂(lè)制作樣本，用于創(chuàng)建樂(lè)器循環(huán)、音效等。

ACE-Step局限性

輸出不一致：對(duì)隨機(jī)種子和輸入時(shí)長(zhǎng)敏感，結(jié)果不穩(wěn)定。
風(fēng)格表現(xiàn)不均：在某些特定風(fēng)格（如中文說(shuō)唱）上表現(xiàn)欠佳。
連續(xù)性問(wèn)題：重繪或擴(kuò)展操作時(shí)過(guò)渡不自然。
人聲質(zhì)量待提升：合成的人聲較粗糙，缺乏細(xì)節(jié)。
控制粒度不足：需要更精細(xì)的音樂(lè)參數(shù)控制。
多語(yǔ)言歌詞優(yōu)化：需提高對(duì)多語(yǔ)言歌詞的支持，增強(qiáng)準(zhǔn)確性和自然度。

ACE-Step常見(jiàn)問(wèn)題

ACE-Step 與其他音樂(lè)生成模型相比，最大的優(yōu)勢(shì)是什么？

答：ACE-Step 最大的優(yōu)勢(shì)在于它解決了現(xiàn)有模型在生成速度、音樂(lè)連貫性和可控性之間的權(quán)衡問(wèn)題。它能在 A100 GPU 上 20 秒內(nèi)合成長(zhǎng)達(dá) 4 分鐘的音樂(lè)，比基于 LLM 的基線模型快 15 倍，同時(shí)在旋律、和聲和節(jié)奏指標(biāo)上實(shí)現(xiàn)更好的音樂(lè)連貫性和歌詞對(duì)齊，還具備強(qiáng)大的可控功能，如語(yǔ)音克隆、歌詞編輯等，這些功能是其他模型難以同時(shí)實(shí)現(xiàn)的。

ACE-Step 在多語(yǔ)言支持方面存在哪些問(wèn)題？

答：ACE-Step 雖支持 19 種語(yǔ)言，但受數(shù)據(jù)不平衡影響，不太常見(jiàn)的語(yǔ)言表現(xiàn)欠佳。在處理多語(yǔ)言歌詞時(shí)，準(zhǔn)確性和自然度有待提高，需要進(jìn)一步優(yōu)化對(duì)多語(yǔ)言歌詞的支持，以提升模型在不同語(yǔ)言下的整體表現(xiàn)。

ACE-Step 的應(yīng)用場(chǎng)景中，Lyric2Vocal 和 Text2Samples 分別適用于哪些創(chuàng)作環(huán)節(jié)？

答：Lyric2Vocal 基于純?nèi)寺晹?shù)據(jù)的 LoRA 微調(diào)，適用于歌曲創(chuàng)作中的聲樂(lè)演示環(huán)節(jié)，幫助創(chuàng)作者快速測(cè)試歌詞演唱效果，還可用于制作引導(dǎo)曲目、輔助歌曲創(chuàng)作和進(jìn)行聲樂(lè)編排實(shí)驗(yàn)。Text2Samples 基于純樂(lè)器和樣本數(shù)據(jù)的 LoRA 微調(diào)，適用于音樂(lè)制作前期快速創(chuàng)建樂(lè)器循環(huán)、音效以及各種音樂(lè)元素，為音樂(lè)制作提供概念性樣本，提高創(chuàng)作效率。