
ChatTTS-Forge
ChatTTS-Forge簡介
ChatTTS-Forge是一個圍繞 TTS生成模型開發的項目,為用戶提供靈活的TTS生成能力,支持多種音色、風格控制、長文本推理等功能,ChatTTS-Forge提供了各種API(應用程序編程接口),開發人員可以直接使用這些API輕松將文本轉換為語音。
ChatTTS-Forge 是一個圍繞 TTS(文本轉語音)生成模型開發的項目。為用戶提供靈活的TTS生成能力,支持多種音色、風格控制、長文本推理等功能。
ChatTTS-Forge提供了各種API(應用程序編程接口),開發人員可以直接使用這些API輕松將文本轉換為語音。此外,它還提供了易于使用的網頁界面(WebUI),允許用戶直接在網頁上輸入文本并生成語音,無需編程。
ChatTTS-Forge的主要特點:
TTS生成:支持多種TTS模型推理,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用戶可以自由選擇和切換語音。
音調管理:內置多種音調,并且可以上傳自定義音調。用戶可以通過上傳音頻或文本來創建和使用自定義鈴聲。
風格控制:提供多種風格控制選項,包括調整語音速度、音調、音量,以及添加語音增強(Enhancer)以提高輸出質量。
長文本處理:支持超長文本自動切分和推理,可以處理生成長文本音頻內容。
SSML支持:使用類似XML的SSML語法進行高級TTS合成控制,適合更詳細的語音生成場景。
ASR(自動語音識別) :集成Whisper模型,支持語音轉文本功能。
ChatTTS-Forge的技術和方法:
API服務器:用Python編寫的API服務器提供高效的TTS服務,支持多個并發請求和自定義配置。
WebUI :基于Gradio的用戶界面,用戶可以通過簡單的操作界面體驗TTS功能。
Docker 支持:提供 Docker 容器化部署選項,以簡化本地和服務器上的部署過程。
ChatTTS-Forge WebUI 的特點:
TTS(文本到語音) :通過WebUI,用戶可以使用各種不同的TTS模型輸入文本并生成語音。
音調切換:支持多種預設音調切換,用戶可以選擇不同的聲音來生成語音。
自定義語音上傳:用戶可以上傳自己的語音文件,實時生成個性化語音。
風格控制:您可以調整語音的風格,包括語速、音高、音量等參數,以生成滿足特定需求的語音。
長文本處理:支持處理很長的文本,自動將長文本分割成小段并按順序生成語音,適合生成長音頻內容。
批量處理:用戶可以設置批量大小,以提高長文本的推理速度。
精煉器:這個工具 允許您微調文本以優化生成的語音,對于處理無限長度的文本特別有用。
語音增強:集成增強模型以提高生成語音的質量并使其聽起來更自然。
生成歷史:保存最近的3次生成結果,方便用戶比較不同設置下的語音效果。
多模型支持:WebUI支持多種TTS模型,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用戶可以根據自己的需求選擇合適的模型。
SSML支持:使用類似XML的SSML語法來控制語音合成過程,適合需要更復雜控制的場景。
播客工具:幫助用戶從博客腳本創建長格式、多字符的音頻內容。
字幕生成:從字幕文件創建 SSML 腳本以生成各種語音內容。
GitHub:https://github.com/lenML/ChatTTS-Forge
在線體驗:https://huggingface.co/spaces/lenML/ChatTTS-Forge