Kyutai TTS:專為實(shí)時場景設(shè)計的開源文本轉(zhuǎn)語音工具
Kyutai TTS 是法國 Kyutai Labs 開發(fā)的開源文本轉(zhuǎn)語音模型,專為實(shí)時應(yīng)用設(shè)計。它有 1.6B 參數(shù),英語和法語的字錯誤率分別是 2.82% 和 3.29%,語音生成延遲僅 220 毫秒,適合直播和語音助手等場景。其流式處理和延遲流建模技術(shù)讓文本和語音生成更高效。
技術(shù)特點(diǎn):
流式處理與低延遲:Kyutai TTS 可在接收到第一個文本標(biāo)記后立即生成音頻,延遲僅 220 毫秒。在 NVIDIA L40S GPU 上處理 32 個請求時,延遲約 350 毫秒。
高精度語音輸出:英語和法語的單詞錯誤率分別為 2.82% 和 3.29%,說話者相似度分別達(dá) 77.1% 和 78.7%,語音自然且接近原始樣本。
長篇內(nèi)容生成:能處理長篇文章,突破了傳統(tǒng) TTS 模型的 30 秒限制。
語音克隆:用戶提供 10 秒音頻樣本,模型可匹配說話者的音色、語調(diào)等。為確保合法性,Kyutai TTS 基于公開數(shù)據(jù)集提供聲音庫,不直接發(fā)布語音嵌入模型。
單詞時間戳:生成的音頻中每個單詞都有精確時間戳,便于實(shí)時字幕生成或交互式應(yīng)用。
架構(gòu)與訓(xùn)練:
延遲流建模(DSM):模型在接收文本時可實(shí)時生成語音,支持流式文本輸入,能同時處理多個請求。
訓(xùn)練數(shù)據(jù)與硬件:使用 250 萬小時公開音頻數(shù)據(jù)訓(xùn)練,由 Whisper 生成轉(zhuǎn)錄文本,訓(xùn)練過程使用了 32 個 H100 GPU。
應(yīng)用場景:
實(shí)時交互:適用于虛擬助手、在線教育平臺和實(shí)時字幕生成。
內(nèi)容創(chuàng)作:可用于生成播客、有聲書等長篇內(nèi)容。
輔助工具:為視障人士提供高質(zhì)量的文本朗讀服務(wù)。
同其它TTS對比:
與市場上其他 TTS 模型相比,Kyutai TTS 在單詞錯誤率和說話者相似度方面表現(xiàn)出色,尤其在實(shí)時交互場景中表現(xiàn)優(yōu)異。
Kyutai TTS 以 CC-BY-4.0 許可證開源,源碼和權(quán)重可在 GitHub 和 Hugging Face 上找到。開發(fā)者可通過捐贈聲音數(shù)據(jù)幫助模型擴(kuò)充語音風(fēng)格和語言支持。
項(xiàng)目地址:https://kyutai.org/next/tts
相關(guān)文章
- 用戶登錄