Dolphin:海天瑞聲與清華大學聯合發布的一款面向東方語種的自動語音識別模型
Dolphin 是什么?
Dolphin是一款由海天瑞聲與清華大學電子工程系語音與音頻技術實驗室聯合開發的專為東方語言設計的自動語音識別模型。Dolphin支持40種東方語言和22種中國方言。具有高準確率和強魯棒性,能夠適應多種復雜語音環境。Dolphin廣泛應用于語音轉文字、語音交互和語音內容分析等場景,支持一鍵安裝和多種調用方式。
Dolphin 模型特點
多語種支持:Dolphin 支持 40 種東方語言,包括東亞、南亞、東南亞和中東地區的語言,還支持 22 種中國方言(含普通話)。
語言自適應:自動識別輸入語音的語言種類,無需手動指定。
高準確率:在多個測試集上,詞錯誤率(WER)顯著低于同類模型。
強魯棒性:適應不同口音、語速、背景噪聲等復雜語音環境。
高性能表現:在海天瑞聲、Fleurs、CommonVoice 三個測試集下,與 Whisper 同等尺寸模型相比,Dolphin 的詞錯誤率(WER)顯著降低。例如,base 版本平均 WER 降低 63.1%,small 版本平均 WER 降低 68.2%。
開源性:Dolphin 的 base 和 small 版本模型與推理代碼已全面開源。
Dolphin 技術架構
網絡結構:基于 CTC-Attention 架構,采用 E-Branchformer 編碼器和 Transformer 解碼器,并引入了 4 倍下采樣層。這種結構結合了 CTC 的序列建模能力和注意力機制的上下文捕捉能力,能夠有效提升模型的識別準確性和效率。
多任務格式:Dolphin 借鑒了 Whisper 和 OWSM 的設計方法,專注于 ASR 進行了若干關鍵修改,如去掉 previous text 及其相關標記的使用,簡化了輸入格式。此外,Dolphin 引入了兩級語種標簽系統,以更好地處理語言和地區的多樣性。
數據基礎
Dolphin 的訓練數據集整合了海天瑞聲的專有數據和多個開源數據集,總時長超過 21.2 萬小時。其中,海天瑞聲數據集包含 137,712 小時的音頻,覆蓋 38 個東方語種。
應用場景
語音轉文字:適用于會議記錄、語音輸入法等場景。
語音交互:用于ai智能語音助手、智能家居等,提升交互體驗。
語音內容分析:快速轉寫和分析語音媒體內容。
Dolphin 使用教程
安裝:用戶可以通過命令 pip install -U dataoceanai-dolphin 一鍵安裝。
命令行調用:例如,使用 dolphin audio.wav 進行語音識別,還可以指定模型版本、語言和地區的標簽。
Python 調用:通過導入 dolphin 模塊,加載音頻和模型,即可進行語音識別。
相關鏈接
Github地址:https://github.com/DataoceanAI/Dolphin
項目主頁:https://huggingface.co/DataoceanAI