Spark-TTS
Spark-TTS簡介
Spark-TTS是什么?
Spark-TTS是SparkAudio團隊開發的文本轉語音(TTS)系統,基于 Qwen2.5 構建, 直接從文本控制音調、速度和說話者風格,支持零樣本語音克隆、多語言合成、細粒度語音控制以及通過 Web UI 進行語音生成,能夠快速將文本轉換為自然、高質量的語音內容。和傳統TTS系統不同,它直接從LLM預測的編碼中重建音頻,簡化了語音生成流程,提高了效率。

Spark-TTS核心功能
零樣本語音克隆:Spark-TTS支持零樣本語音克隆,即便沒有特定說話者的訓練數據,也能復制說話者的聲音。在跨語言和代碼轉換場景中,它能出色地在不同語言和說話者之間無縫切換。
多語言支持:該系統支持中文和英文,在跨語言合成時能保持高度的自然度和準確性。用戶用一種語言輸入文本,就能得到另一種語言的語音輸出。
細粒度語音控制:用戶能通過調整性別、音高、語速等參數,定制虛擬說話者的聲音,滿足虛擬主播、有聲讀物等場景對多樣化語音內容的需求。
高效語音合成:Spark-TTS完全基于Qwen2.5架構,無需額外的生成模型,直接從LLM預測的編碼中重建音頻,簡化了流程,降低了復雜性。
虛擬說話者創建:用戶可以創建屬于自己的虛擬說話者,通過調整參數賦予其獨特的語音風格。
Spark-TTS技術架構
Spark-TTS的技術基礎是BiCodec單流語音編解碼器,它把語音分解成低比特率語義標記(負責語言內容)和固定長度全局標記(負責說話者屬性)。這種分離方式便于靈活調整語音特性,再結合Qwen2.5的思維鏈(Chain-of-Thought)技術,進一步提升了語音生成的質量和可控性。

Spark-TTS應用場景
有聲讀物制作:其自然的語音質量特別適合用于有聲讀物。
虛擬主播:通過調整語音參數,生成符合特定需求的虛擬說話者。
跨語言語音合成:支持多種語言,擴展了其在全球范圍內的適用性。

Spark-TTS安裝與使用
1. 環境準備
安裝 Python:確保已安裝 Python 3.12。
安裝 Conda:用于管理虛擬環境,可通過 Miniconda 官網 下載安裝。
2. 克隆倉庫
git clone https://github.com/SparkAudio/Spark-TTS.git cd Spark-TTS
3. 安裝依賴
conda create -n sparktts -y python=3.12 conda activate sparktts pip install -r requirements.txt
如果在中國大陸,可以使用阿里云鏡像:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
4. 下載預訓練模型
通過以下命令下載預訓練模型:
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")5.基本使用
運行以下命令進行語音合成:
python -m cli.inference \ --text "text to synthesis." \ --device 0 \ --save_dir "path/to/save/audio" \ --model_dir pretrained_models/Spark-TTS-0.5B \ --prompt_text "transcript of the prompt audio" \ --prompt_speech_path "path/to/prompt_audio"
6. Web UI 使用
python webui.py --device 0
GitHub倉庫:https://github.com/SparkAudio/Spark-TTS
HuggingFace模型庫:https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
論文:https://arxiv.org/pdf/2503.01710
演示:https://sparkaudio.github.io/spark-tts/
相關資訊:
Llasa:一款基于Llama的文本轉語音(TTS),生成效果自然流暢富有感情
Octave:Hume AI發布的一款TTS模型,可上下文感知與情感適應
提交您的產品
Ai應用
Ai資訊
AI生圖
AI生視頻
FastbuildAI






