Seed-TTS:字節跳動開發的高質量文本到語音TTS模型
最近,TTS領域爆發了。就在chatTTS開源之后,Byte發布了seed-tts,效果很好。
Seed-TTS,是由字節跳動開發的高質量文本到語音(TTS)模型,Seed-TTS模型能夠生成與人類語音幾乎沒有區別的語音。
作為語音生成的基礎模型,Seed-TTS 在語音上下文學習方面表現出色,在說話者相似度和自然度方面的表現在客觀和主觀評估方面都與真實人類語音相匹配。
Seed-TTS在無需訓練的情況下,只需要簡短的語音片段即可克隆生成高度自然且富有表現力的語音,可以勝任讀小說、配音等任務。
Seed-TTS還提供了對各種語音屬性的高級控制能力,包括但不限于情感、語調、說話風格等,還可以通過編輯文本來編輯生成的語音。
Seed-TTS可以修改音頻中的內容,同時保持音色、音調和情感不變。
Seed-TTS能進行語速調節,自由控制音頻速度。
Seed-TTS 對各種語音屬性(例如情感)提供卓越的可控性,并且能夠為野外說話者生成高度表現力和多樣化的語音。
此外,我們提出了一種用于語音分解的自蒸餾方法,以及一種強化學習方法來增強模型的魯棒性、說話人的相似性和可控性。我們還提出了 Seed-TTS 模型的非自回歸 (NAR) 變體,名為 Seed-TTS DiT ,它采用完全基于擴散的架構。與之前基于 NAR 的 TTS 系統不同,Seed-TTS DiT 不依賴于預先估計的音素持續時間,并通過端到端處理執行語音生成。我們證明該變體在客觀和主觀評估中都達到了與基于語言模型的變體相當的性能,并展示了其在語音編輯中的有效性。
論文:https://arxiv.org/abs/2406.02430
相關文章
UNO:字節跳動開發的一個多主體條件圖像生成模型
2025-04-09