
Spark-TTS
Spark-TTS簡介
Spark-TTS是什么?
Spark-TTS是SparkAudio團(tuán)隊(duì)開發(fā)的文本轉(zhuǎn)語音(TTS)系統(tǒng),基于 Qwen2.5 構(gòu)建, 直接從文本控制音調(diào)、速度和說話者風(fēng)格,支持零樣本語音克隆、多語言合成、細(xì)粒度語音控制以及通過 Web UI 進(jìn)行語音生成,能夠快速將文本轉(zhuǎn)換為自然、高質(zhì)量的語音內(nèi)容。和傳統(tǒng)TTS系統(tǒng)不同,它直接從LLM預(yù)測(cè)的編碼中重建音頻,簡化了語音生成流程,提高了效率。
Spark-TTS核心功能
零樣本語音克隆:Spark-TTS支持零樣本語音克隆,即便沒有特定說話者的訓(xùn)練數(shù)據(jù),也能復(fù)制說話者的聲音。在跨語言和代碼轉(zhuǎn)換場(chǎng)景中,它能出色地在不同語言和說話者之間無縫切換。
多語言支持:該系統(tǒng)支持中文和英文,在跨語言合成時(shí)能保持高度的自然度和準(zhǔn)確性。用戶用一種語言輸入文本,就能得到另一種語言的語音輸出。
細(xì)粒度語音控制:用戶能通過調(diào)整性別、音高、語速等參數(shù),定制虛擬說話者的聲音,滿足虛擬主播、有聲讀物等場(chǎng)景對(duì)多樣化語音內(nèi)容的需求。
高效語音合成:Spark-TTS完全基于Qwen2.5架構(gòu),無需額外的生成模型,直接從LLM預(yù)測(cè)的編碼中重建音頻,簡化了流程,降低了復(fù)雜性。
虛擬說話者創(chuàng)建:用戶可以創(chuàng)建屬于自己的虛擬說話者,通過調(diào)整參數(shù)賦予其獨(dú)特的語音風(fēng)格。
Spark-TTS技術(shù)架構(gòu)
Spark-TTS的技術(shù)基礎(chǔ)是BiCodec單流語音編解碼器,它把語音分解成低比特率語義標(biāo)記(負(fù)責(zé)語言內(nèi)容)和固定長度全局標(biāo)記(負(fù)責(zé)說話者屬性)。這種分離方式便于靈活調(diào)整語音特性,再結(jié)合Qwen2.5的思維鏈(Chain-of-Thought)技術(shù),進(jìn)一步提升了語音生成的質(zhì)量和可控性。
Spark-TTS應(yīng)用場(chǎng)景
有聲讀物制作:其自然的語音質(zhì)量特別適合用于有聲讀物。
虛擬主播:通過調(diào)整語音參數(shù),生成符合特定需求的虛擬說話者。
跨語言語音合成:支持多種語言,擴(kuò)展了其在全球范圍內(nèi)的適用性。
Spark-TTS安裝與使用
1. 環(huán)境準(zhǔn)備
安裝 Python:確保已安裝 Python 3.12。
安裝 Conda:用于管理虛擬環(huán)境,可通過 Miniconda 官網(wǎng) 下載安裝。
2. 克隆倉庫
git clone https://github.com/SparkAudio/Spark-TTS.git cd Spark-TTS
3. 安裝依賴
conda create -n sparktts -y python=3.12 conda activate sparktts pip install -r requirements.txt
如果在中國大陸,可以使用阿里云鏡像:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
4. 下載預(yù)訓(xùn)練模型
通過以下命令下載預(yù)訓(xùn)練模型:
from huggingface_hub import snapshot_download snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
5.基本使用
運(yùn)行以下命令進(jìn)行語音合成:
python -m cli.inference \ --text "text to synthesis." \ --device 0 \ --save_dir "path/to/save/audio" \ --model_dir pretrained_models/Spark-TTS-0.5B \ --prompt_text "transcript of the prompt audio" \ --prompt_speech_path "path/to/prompt_audio"
6. Web UI 使用
python webui.py --device 0
GitHub倉庫:https://github.com/SparkAudio/Spark-TTS
HuggingFace模型庫:https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
論文:https://arxiv.org/pdf/2503.01710
演示:https://sparkaudio.github.io/spark-tts/
相關(guān)資訊:
Llasa:一款基于Llama的文本轉(zhuǎn)語音(TTS),生成效果自然流暢富有感情
Octave:Hume AI發(fā)布的一款TTS模型,可上下文感知與情感適應(yīng)