ACE-Step:一個新型開源音樂生成基礎模型
ACE-Step是什么?
ACE-Step 是一個由 ACE Studio 與 StepFun 聯合開發的新型開源音樂生成基礎模型,它通過整合基于擴散的生成技術、Sana 的深度壓縮自動編碼器和輕量級線性變壓器,克服了現有音樂生成方法在生成速度、音樂連貫性和可控性方面的局限。該模型在 A100 GPU 上 20 秒內可合成長達 4 分鐘的音樂,比基于 LLM 的基線快 15 倍,且在旋律、和聲和節奏指標上實現了更好的音樂連貫性和歌詞對齊,還支持語音克隆、歌詞編輯等高級控制機制,同時也列出了模型存在輸出不一致、特定風格表現不佳等局限性。
ACE-Step核心架構
ACE-Step 通過整合擴散模型、深度壓縮自編碼器和輕量級線性變換器,并利用 MERT 和 m-hubert 在訓練期間對齊語義表示(REPA),實現了快速收斂。這種架構設計使其在生成速度、音樂連貫性和可控性之間取得了平衡。
ACE-Step優勢
生成速度:ACE-Step 在 NVIDIA A100 GPU 上僅需 20 秒即可生成長達 4 分鐘的音樂,比基于大型語言模型(LLM)的基線方法快 15 倍。
音樂連貫性:該模型在旋律、和聲和節奏指標上表現出優越的音樂連貫性和歌詞對齊能力。
細節保留:ACE-Step 保留了細粒度的聲學細節,支持高級控制機制,例如聲音克隆、歌詞編輯、混音和音軌生成。
ACE-Step功能特點
風格多樣:支持主流音樂風格,能處理多種描述格式,如短標簽、描述性文本或應用場景描述,在實驗性輸入測試中也表現良好,還可生成多種樂器的器樂曲目。
多語言支持:支持 19 種語言,但受數據不平衡影響,部分語言表現欠佳,表現較好的前 10 種語言包括英語、中文、俄語等。
可控性強:
Variations Generation:利用無訓練的推理時間優化技術,通過調整初始噪聲和新增高斯噪聲的混合比例,生成與原曲相似度不同的變體。
Repaint:通過對目標音頻輸入添加噪聲并在 ODE 過程中應用掩碼約束,可修改特定部分,還能結合變體生成技術實現局部風格、歌詞或人聲變化。
Edit:運用 flow-edit 技術,能在不改變旋律、人聲音色和背景音樂的情況下修改歌詞,但一次只能修改小段歌詞。
ACE-Step應用場景
Lyric2Vocal(LoRA):基于純人聲數據的 LoRA 微調,可從歌詞直接生成人聲樣本,用于聲樂演示、歌曲創作輔助等。
Text2Samples(LoRA):基于純樂器和樣本數據的 LoRA 微調,能根據文本描述生成概念性音樂制作樣本,用于創建樂器循環、音效等。
ACE-Step局限性
輸出不一致:對隨機種子和輸入時長敏感,結果不穩定。
風格表現不均:在某些特定風格(如中文說唱)上表現欠佳。
連續性問題:重繪或擴展操作時過渡不自然。
人聲質量待提升:合成的人聲較粗糙,缺乏細節。
控制粒度不足:需要更精細的音樂參數控制。
多語言歌詞優化:需提高對多語言歌詞的支持,增強準確性和自然度。
ACE-Step常見問題
ACE-Step 與其他音樂生成模型相比,最大的優勢是什么?
答:ACE-Step 最大的優勢在于它解決了現有模型在生成速度、音樂連貫性和可控性之間的權衡問題。它能在 A100 GPU 上 20 秒內合成長達 4 分鐘的音樂,比基于 LLM 的基線模型快 15 倍,同時在旋律、和聲和節奏指標上實現更好的音樂連貫性和歌詞對齊,還具備強大的可控功能,如語音克隆、歌詞編輯等,這些功能是其他模型難以同時實現的。
ACE-Step 在多語言支持方面存在哪些問題?
答:ACE-Step 雖支持 19 種語言,但受數據不平衡影響,不太常見的語言表現欠佳。在處理多語言歌詞時,準確性和自然度有待提高,需要進一步優化對多語言歌詞的支持,以提升模型在不同語言下的整體表現。
ACE-Step 的應用場景中,Lyric2Vocal 和 Text2Samples 分別適用于哪些創作環節?
答:Lyric2Vocal 基于純人聲數據的 LoRA 微調,適用于歌曲創作中的聲樂演示環節,幫助創作者快速測試歌詞演唱效果,還可用于制作引導曲目、輔助歌曲創作和進行聲樂編排實驗。Text2Samples 基于純樂器和樣本數據的 LoRA 微調,適用于音樂制作前期快速創建樂器循環、音效以及各種音樂元素,為音樂制作提供概念性樣本,提高創作效率。
相關鏈接
https://ace-step.github.io/