Llasa:一款基于Llama的文本轉語音(TTS),生成效果自然流暢富有感情
Llasa是什么?
Llasa是由香港科技大學音頻實驗室開發的開源文本轉語音(TTS)系統,基于 LLaMA 架構,結合了 XCodec2 語音標記技術,能夠生成高質量、自然流暢、富有感情的語音,提高了語音合成的自然度、韻律準確性和情感表達能力,生成效果比較自然。
Llasa核心功能
高質量語音合成:能生成自然流暢的語音,支持中英文雙語,語音自然度和情感表達出色。
情感表達:可合成帶有快樂、悲傷、憤怒等情感色彩的語音,讓語音更自然生動。
語音克隆:只需15秒聲音樣本,就能高度準確地克隆聲音,保留原聲音色和情感特征。
零樣本學習:對沒見過的說話者或情感也能進行語音合成,無需額外微調。
長文本支持:能處理長文本輸入并生成連貫語音輸出,適用于有聲讀物、語音播報等場景。
Llasa技術原理
架構:基于單層向量量化(VQ)編解碼器和單個Transformer架構,與標準LLaMA模型完全對齊。
語音分詞器:用XCodec2將語音波形編碼為離散標記,保留語義和聲學信息。
訓練與推理擴展:增加模型規模(如1B、3B、8B參數)或訓練數據量(如25萬小時語音數據),提升語音自然度和情感表達能力。
自回歸生成:逐個生成語音標記,保證語音在語義和韻律上與輸入文本一致。
Llasa模型版本
Llasa有1B、3B和8B參數版本,支持中英文,可滿足不同硬件資源和應用場景需求。
Llasa應用場景
適用于虛擬現實、游戲、無障礙服務、客戶服務以及教育等領域以及適合做有聲讀物或語音助手。
智能語音助手:Llasa TTS能讓智能設備或軟件有自然流暢的語音交互功能,使用戶體驗更好。
有聲讀物與在線教育領域:它能把文本內容轉化成生動語音,用于有聲讀物制作和在線教育,方便學生通過聽來學習。
語音播報與客服:Llasa TTS可用于新聞播報、交通信息提示和客服系統,讓信息傳遞更高效。
游戲與娛樂:它能為角色或虛擬形象配上個性化語音,增強沉浸感。
廣告與市場營銷:企業能用Llasa TTS生成廣告語音,提升品牌宣傳效果。
語音克隆與內容創作:Llasa TTS支持零樣本語音克隆,只要15秒左右音頻樣本就能克隆特定人聲的音色和情感,可用于廣告配音、視頻制作或個性化語音內容創作 。
GitHub倉庫:https://github.com/zhenye234/LLaSA_training
HuggingFace模型庫:https://huggingface.co/collections/HKUSTAudio/llasa
在線體驗Demo:https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts