TangoFlux

新加坡科技設(shè)計大學(xué)（SUTD）與NVIDIA合作研發(fā)的一款先進(jìn)的文本到音頻（TTA）生成模型，該模型擁有約5.15億參數(shù)，能夠在單個A40 G

#Ai工具箱 #Ai平臺模型 #文字轉(zhuǎn)語音

TangoFlux簡介

TangoFlux是新加坡科技設(shè)計大學(xué)（SUTD）與NVIDIA合作研發(fā)的一款先進(jìn)的文本到音頻（TTA）生成模型，該模型擁有約5.15億參數(shù)，能夠在單個A40 GPU上僅用3.7秒生成長達(dá)30秒的44.1kHz立體聲音頻。TangoFlux不僅可以生成音效如鳥叫、口哨、爆炸等聲音，還能生成音樂。

TangoFlux技術(shù)原理

變分自編碼器: 使用VAE將音頻波形編碼成潛在的表示，從潛在表示中重構(gòu)原始音頻。
文本和時長嵌入: 基于文本編碼和時長編碼來控制生成音頻的內(nèi)容和時長。
FluxTransformer架構(gòu): 結(jié)合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT)處理文本提示和生成音頻。
流匹配: 學(xué)習(xí)從簡單先驗(yàn)分布到復(fù)雜目標(biāo)分布的映射，生成樣本。
CLAP-Ranked Preference Optimization: 基于迭代生成偏好數(shù)據(jù)對，優(yōu)化音頻對齊。

TangoFlux主要功能

快速生成音頻：TangoFlux能夠在極短的時間內(nèi)生成高質(zhì)量的音頻內(nèi)容，適用于需要快速響應(yīng)的應(yīng)用場景。
高音質(zhì)輸出：生成的音頻質(zhì)量高，能夠清晰再現(xiàn)各種聲音事件，適合用于音樂、音效等多種類型的音頻生成。
支持長音頻生成：該模型能夠處理長達(dá)30秒的音頻生成任務(wù)，適合制作較長的音頻內(nèi)容。
多樣化音效生成：TangoFlux不僅可以生成音樂，還能生成各種音效，如鳥叫、口哨、爆炸聲等，適用于多種創(chuàng)意和娛樂項(xiàng)目。

TangoFlux主要功能.webp

TangoFlux應(yīng)用場景

影視與游戲音頻制作：TangoFlux可依劇本或場景描述，快速生成逼真音效、配樂及配音，縮短制作周期、降成本，提升作品音頻質(zhì)量，增強(qiáng)游戲互動性與沉浸感。
音樂創(chuàng)作靈感源：能按創(chuàng)作者設(shè)定，生成多樣音樂片段，助力突破創(chuàng)作瓶頸，推動音樂創(chuàng)新，帶來更多新穎作品。
VR與AR體驗(yàn)增強(qiáng)：依虛擬環(huán)境與用戶交互生成實(shí)時逼真音頻，提升VR游戲沉浸感，增強(qiáng)AR應(yīng)用對虛實(shí)融合的感知。
廣告營銷音頻創(chuàng)新：依廣告創(chuàng)意與品牌形象生成獨(dú)特音頻，吸引消費(fèi)者，喚起共鳴，提升品牌知名度與美譽(yù)度。

TangoFlux項(xiàng)目資源

項(xiàng)目官網(wǎng): tangoflux.github.io
arXiv技術(shù)論文: https://export.arxiv.org/pdf/2412.21037

TangoFlux還采用了CLAP-Ranked Preference Optimization (CRPO)框架，通過迭代生成和優(yōu)化偏好數(shù)據(jù)來提升模型的音頻對齊能力。這種方法使得生成的音頻不僅在質(zhì)量上有保障，還能更好地符合用戶的偏好和輸入文本的意圖。此外，TangoFlux的訓(xùn)練基于非專有數(shù)據(jù)集，使得模型更加開放和可訪問，促進(jìn)了進(jìn)一步的研究和應(yīng)用。

TangoFlux主要應(yīng)用于多媒體內(nèi)容創(chuàng)作，比如在電影、游戲、廣告和視頻制作中生成背景音樂、聲效和配音，從而提高制作效率和降低費(fèi)用。它的技術(shù)原理包括變分自編碼器（VAE）、文本和時長嵌入、FluxTransformer架構(gòu)等，這些技術(shù)共同支持了其高效的音頻生成能力。

相關(guān)資訊：

文本轉(zhuǎn)語音軟件

淘寶星辰大模型

無階未來