Spark-TTS

SparkAudio團隊開發的文本轉語音（TTS）系統，基于 Qwen2.5 構建，能夠生成自然、高質量的語音。并支持零樣本語音克隆和多語言合成。

#Ai工具箱 #Ai開源項目

Spark-TTS簡介

Spark-TTS是什么？

Spark-TTS是SparkAudio團隊開發的文本轉語音（TTS）系統，基于 Qwen2.5 構建，直接從文本控制音調、速度和說話者風格，支持零樣本語音克隆、多語言合成、細粒度語音控制以及通過 Web UI 進行語音生成，能夠快速將文本轉換為自然、高質量的語音內容。和傳統TTS系統不同，它直接從LLM預測的編碼中重建音頻，簡化了語音生成流程，提高了效率。

Spark-TTS核心功能

零樣本語音克隆：Spark-TTS支持零樣本語音克隆，即便沒有特定說話者的訓練數據，也能復制說話者的聲音。在跨語言和代碼轉換場景中，它能出色地在不同語言和說話者之間無縫切換。
多語言支持：該系統支持中文和英文，在跨語言合成時能保持高度的自然度和準確性。用戶用一種語言輸入文本，就能得到另一種語言的語音輸出。
細粒度語音控制：用戶能通過調整性別、音高、語速等參數，定制虛擬說話者的聲音，滿足虛擬主播、有聲讀物等場景對多樣化語音內容的需求。
高效語音合成：Spark-TTS完全基于Qwen2.5架構，無需額外的生成模型，直接從LLM預測的編碼中重建音頻，簡化了流程，降低了復雜性。
虛擬說話者創建：用戶可以創建屬于自己的虛擬說話者，通過調整參數賦予其獨特的語音風格。

Spark-TTS技術架構

Spark-TTS的技術基礎是BiCodec單流語音編解碼器，它把語音分解成低比特率語義標記（負責語言內容）和固定長度全局標記（負責說話者屬性）。這種分離方式便于靈活調整語音特性，再結合Qwen2.5的思維鏈（Chain-of-Thought）技術，進一步提升了語音生成的質量和可控性。

Spark-TTS應用場景

有聲讀物制作：其自然的語音質量特別適合用于有聲讀物。
虛擬主播：通過調整語音參數，生成符合特定需求的虛擬說話者。
跨語言語音合成：支持多種語言，擴展了其在全球范圍內的適用性。

Spark-TTS安裝與使用

1. 環境準備

安裝 Python：確保已安裝 Python 3.12。
安裝 Conda：用于管理虛擬環境，可通過 Miniconda 官網下載安裝。

2. 克隆倉庫

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

3. 安裝依賴

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

如果在中國大陸，可以使用阿里云鏡像：

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

4. 下載預訓練模型

通過以下命令下載預訓練模型：

from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

5.基本使用

運行以下命令進行語音合成：

python -m cli.inference \
    --text "text to synthesis." \
    --device 0 \
    --save_dir "path/to/save/audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "transcript of the prompt audio" \
    --prompt_speech_path "path/to/prompt_audio"

6. Web UI 使用