SenseVoice

一款阿里通義實驗室發布的FunAudioLLM框架多語言音頻基礎模型，SenseVoice具有多語種、混合語言、音色和情感控制能力。

#Ai工具箱 #Ai語音工具

SenseVoice簡介

SenseVoice，一款阿里通義實驗室發布的FunAudioLLM框架多語言音頻基礎模型，enseVoice專注于高精度多語言語音識別、語音情感識別和音頻事件檢測，具有多語種、混合語言、音色和情感控制能力，在零樣本語音生成、跨語言語音克隆和指令跟蹤方面的能力表現優秀。

FunAudioLLM 通過結合先進的語音理解和生成技術，可以處理復雜的語音任務，并在多種語言環境中實現自然交。

SenseVoice可以應用于語音翻譯、情感語音聊天、互動播客和富有表現力的有聲讀物朗讀等。

SenseVoice具有音頻理解能力，包括語音識別（ASR）、語種識別（LID）、語音情感識別（SER）和聲學事件分類（AEC）或聲學事件檢測（AED）

SenseVoice性能：

多語言語音識別：經過超過40萬小時的數據訓練，支持50多種語言，識別性能超越Whisper模型。
豐富轉錄：
擁有優秀的情緒識別能力，在測試數據上達到并超越目前最好的情緒識別模型的效果。
提供聲音事件檢測能力，支持bgm、掌聲、笑聲、哭泣、咳嗽、打噴嚏等各種常見人機交互事件的檢測。
高效推理：SenseVoice-Small 模型采用非自回歸端到端框架，從而實現極低的推理延遲。處理 10 秒的音頻僅需 70ms，比 Whisper-Large 快 15 倍。
便捷的Finetuning：提供便捷的Finetuning腳本和策略，讓用戶根據業務場景輕松解決長尾樣本問題。
服務部署：提供服務部署管道，支持多并發請求，客戶端語言包括Python、C++、HTML、Java、C#等。

在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上測試了多語言語音識別性能和推理效率，中文和粵語，SenseVoice-Small效果好。

github：https://github.com/FunAudioLLM/SenseVoice