首頁 > Ai資訊 > Ai產品

FunAudioLLM：阿里巴巴語音AI突破

FunAudioLLM于2024-09-28發布在Ai產品

FunAudioLLM是阿里巴巴開發的一套語音處理模型，旨在改善人類與大型語言模型之間的語音交互。它由兩個主要模型組成：SenseVoice 和 CosyVoice。

SenseVoice ：一種語音識別模型，可以識別多種語言的語音，識別說話者的情緒，并檢測音頻中的特殊事件（例如音樂、笑聲等）。它可以快速準確地轉錄語音內容。

CosyVoice ：語音生成模式，該模型主要生成自然且情感豐富的語音。它可以模仿不同的說話者，甚至可以通過幾秒鐘的音頻樣本克隆一個人的聲音。

通過SenseVoice和CosyVoice的結合，FunAudioLLM提供了全面的語音理解和生成能力，使得人與大型語言模型之間的語音交互更加自然和豐富。

FunAudioLLM：阿里巴巴語音AI突破.png

SenseVoice 和 CosyVoice 的主要特性：

SenseVoice專注于多語言語音識別、情感識別和音頻事件檢測，提供高精度、低延遲的語音處理能力。 CosyVoice專注于自然語音生成和控制，支持多種語言、音色、說話風格的生成，可以實現零樣本學習和細粒度的語音控制。兩者的結合使得FunAudioLLM能夠在多種應用場景下提供出色的語音交互體驗。

SenseVoice 主要特性

1.多語言語音識別

SenseVoice-Small ：支持中文、英語、粵語、日語、韓語五種語言。它采用非自回歸端到端架構，識別延遲極低。它比 Whisper-small 快 5 倍，比 Whisper-large 快 15 倍。
SenseVoice-Large ：高精度語音識別，支持 50 多種語言。

2. 情緒識別

通過檢測言語的音高、節奏、語調變化來識別言語中的情緒，如快樂、悲傷、憤怒等。

3. 音頻事件檢測

檢測語音中的特殊事件，例如音樂、笑聲、掌聲等，并預測事件的開始和結束時間。
SenseVoice-Small可以檢測各種人機交互事件，如背景音樂、掌聲、笑聲、哭聲、咳嗽、打噴嚏等。

4. 語言識別

能夠識別說話者使用的語言，以確保語音識別和上下文理解的準確性。

5. 逆向文本標準化（ITN）

提供標點和格式化的轉錄結果，以提高轉錄文本的可讀性和準確性。

FunAudioLLM的主要特點:

多語言語音識別：超過40萬小時的訓練數據，識別性能優于Whisper模型。
高效推理：SenseVoice-Small模型采用非自回歸端到端框架，推理延遲極低。處理 10 秒的音頻僅需 70 毫秒，比 Whisper-Large 快 15 倍。
情緒識別：在多個測試數據集上，達到了目前最好的情緒識別模型的結果。
事件檢測：支持多種常見的音頻事件檢測。
便捷的微調：提供便捷的微調腳本和策略，用戶可以根據業務場景輕松解決長尾樣本問題。
服務部署：提供服務部署管道，支持多個并發請求，客戶端語言包括Python、C++、HTML、Java、C#等。

CosyVoice 的主要特點:

1.語音生成