TangoFlux
TangoFlux簡介
TangoFlux是新加坡科技設(shè)計大學(xué)(SUTD)與NVIDIA合作研發(fā)的一款先進(jìn)的文本到音頻(TTA)生成模型,該模型擁有約5.15億參數(shù),能夠在單個A40 GPU上僅用3.7秒生成長達(dá)30秒的44.1kHz立體聲音頻。TangoFlux不僅可以生成音效如鳥叫、口哨、爆炸等聲音,還能生成音樂。
TangoFlux技術(shù)原理
變分自編碼器: 使用VAE將音頻波形編碼成潛在的表示,從潛在表示中重構(gòu)原始音頻。
文本和時長嵌入: 基于文本編碼和時長編碼來控制生成音頻的內(nèi)容和時長。
FluxTransformer架構(gòu): 結(jié)合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT)處理文本提示和生成音頻。
流匹配: 學(xué)習(xí)從簡單先驗(yàn)分布到復(fù)雜目標(biāo)分布的映射,生成樣本。
CLAP-Ranked Preference Optimization: 基于迭代生成偏好數(shù)據(jù)對,優(yōu)化音頻對齊。

TangoFlux主要功能
快速生成音頻:TangoFlux能夠在極短的時間內(nèi)生成高質(zhì)量的音頻內(nèi)容,適用于需要快速響應(yīng)的應(yīng)用場景。
高音質(zhì)輸出:生成的音頻質(zhì)量高,能夠清晰再現(xiàn)各種聲音事件,適合用于音樂、音效等多種類型的音頻生成。
支持長音頻生成:該模型能夠處理長達(dá)30秒的音頻生成任務(wù),適合制作較長的音頻內(nèi)容。
多樣化音效生成:TangoFlux不僅可以生成音樂,還能生成各種音效,如鳥叫、口哨、爆炸聲等,適用于多種創(chuàng)意和娛樂項(xiàng)目。

TangoFlux應(yīng)用場景
影視與游戲音頻制作:TangoFlux可依劇本或場景描述,快速生成逼真音效、配樂及配音,縮短制作周期、降成本,提升作品音頻質(zhì)量,增強(qiáng)游戲互動性與沉浸感。
音樂創(chuàng)作靈感源:能按創(chuàng)作者設(shè)定,生成多樣音樂片段,助力突破創(chuàng)作瓶頸,推動音樂創(chuàng)新,帶來更多新穎作品。
VR與AR體驗(yàn)增強(qiáng):依虛擬環(huán)境與用戶交互生成實(shí)時逼真音頻,提升VR游戲沉浸感,增強(qiáng)AR應(yīng)用對虛實(shí)融合的感知。
廣告營銷音頻創(chuàng)新:依廣告創(chuàng)意與品牌形象生成獨(dú)特音頻,吸引消費(fèi)者,喚起共鳴,提升品牌知名度與美譽(yù)度。
TangoFlux項(xiàng)目資源
項(xiàng)目官網(wǎng): tangoflux.github.io
arXiv技術(shù)論文: https://export.arxiv.org/pdf/2412.21037
TangoFlux還采用了CLAP-Ranked Preference Optimization (CRPO)框架,通過迭代生成和優(yōu)化偏好數(shù)據(jù)來提升模型的音頻對齊能力。這種方法使得生成的音頻不僅在質(zhì)量上有保障,還能更好地符合用戶的偏好和輸入文本的意圖。此外,TangoFlux的訓(xùn)練基于非專有數(shù)據(jù)集,使得模型更加開放和可訪問,促進(jìn)了進(jìn)一步的研究和應(yīng)用。
TangoFlux主要應(yīng)用于多媒體內(nèi)容創(chuàng)作,比如在電影、游戲、廣告和視頻制作中生成背景音樂、聲效和配音,從而提高制作效率和降低費(fèi)用。它的技術(shù)原理包括變分自編碼器(VAE)、文本和時長嵌入、FluxTransformer架構(gòu)等,這些技術(shù)共同支持了其高效的音頻生成能力。
相關(guān)資訊:
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
FastbuildAI








