FunAudioLLM:阿里巴巴語音AI突破
FunAudioLLM是阿里巴巴開發的一套語音處理模型,旨在改善人類與大型語言模型之間的語音交互。它由兩個主要模型組成:SenseVoice 和 CosyVoice。
SenseVoice :一種語音識別模型,可以識別多種語言的語音,識別說話者的情緒,并檢測音頻中的特殊事件(例如音樂、笑聲等)。它可以快速準確地轉錄語音內容。
CosyVoice :語音生成模式,該模型主要生成自然且情感豐富的語音。它可以模仿不同的說話者,甚至可以通過幾秒鐘的音頻樣本克隆一個人的聲音。
通過SenseVoice和CosyVoice的結合,FunAudioLLM提供了全面的語音理解和生成能力,使得人與大型語言模型之間的語音交互更加自然和豐富。
SenseVoice 和 CosyVoice 的主要特性:
SenseVoice專注于多語言語音識別、情感識別和音頻事件檢測,提供高精度、低延遲的語音處理能力。 CosyVoice專注于自然語音生成和控制,支持多種語言、音色、說話風格的生成,可以實現零樣本學習和細粒度的語音控制。兩者的結合使得FunAudioLLM能夠在多種應用場景下提供出色的語音交互體驗。
SenseVoice 主要特性
1.多語言語音識別
SenseVoice-Small :支持中文、英語、粵語、日語、韓語五種語言。它采用非自回歸端到端架構,識別延遲極低。它比 Whisper-small 快 5 倍,比 Whisper-large 快 15 倍。
SenseVoice-Large :高精度語音識別,支持 50 多種語言。
2. 情緒識別
通過檢測言語的音高、節奏、語調變化來識別言語中的情緒,如快樂、悲傷、憤怒等。
3. 音頻事件檢測
檢測語音中的特殊事件,例如音樂、笑聲、掌聲等,并預測事件的開始和結束時間。
SenseVoice-Small可以檢測各種人機交互事件,如背景音樂、掌聲、笑聲、哭聲、咳嗽、打噴嚏等。
4. 語言識別
能夠識別說話者使用的語言,以確保語音識別和上下文理解的準確性。
5. 逆向文本標準化(ITN)
提供標點和格式化的轉錄結果,以提高轉錄文本的可讀性和準確性。
FunAudioLLM的主要特點:
多語言語音識別:超過40萬小時的訓練數據,識別性能優于Whisper模型。
高效推理:SenseVoice-Small模型采用非自回歸端到端框架,推理延遲極低。處理 10 秒的音頻僅需 70 毫秒,比 Whisper-Large 快 15 倍。
情緒識別:在多個測試數據集上,達到了目前最好的情緒識別模型的結果。
事件檢測:支持多種常見的音頻事件檢測。
便捷的微調:提供便捷的微調腳本和策略,用戶可以根據業務場景輕松解決長尾樣本問題。
服務部署:提供服務部署管道,支持多個并發請求,客戶端語言包括Python、C++、HTML、Java、C#等。
CosyVoice 的主要特點:
1.語音生成
支持多語言語音生成,包括中文、英語、粵語、日語、韓語。
能夠生成自然且情感豐富的語音,支持不同的說話風格和情感表達。
2.多樣化的語音控制
音色控制:可以精確控制生成語音的音色,使其與特定說話者的聲音相匹配。
說話風格控制:通過文本命令控制聲音的說話風格,如情緒、語速、音調等。
3. 零樣本學習
只需幾秒鐘的音頻樣本即可克隆語音,無需額外的訓練數據。
支持跨語言語音克隆,讓您用一種語言使用另一種語言的聲音說話。
4. 副語言特征的細粒度控制
支持插入笑聲、呼吸、語氣詞等細微的語音特征,使生成的語音更加自然生動。
文本命令控制:通過文本命令可以精確控制說話者的身份、情緒、說話風格。
5.多角色對話
它可以生成多字符會話語音,適用于互動播客、情感聊天等場景。
項目地址:https://github.com/FunAudioLLM