
FireRedASR
FireRedASR簡介
FireRedASR 是由小紅書 FireRed 團隊于2025年2月9日發布并開源的基于大模型的語音識別模型,它在中文普通話語音識別領域取得了新的SOTA(字錯誤率CER 3.05%),并支持方言、英語及歌詞識別。
FireRedASR的主要功能:
高精度語音識別:FireRedASR-LLM(8.3B參數量)在公開測試集上取得了3.05%的字錯誤率(CER),成為新的SOTA,相比此前的SOTA模型Seed-ASR(12B+參數)降低了8.4%的錯誤率。
高效推理:FireRedASR-AED(1.1B參數量)在保持高準確率的同時,顯著提升了推理效率,其CER為3.18%。
多場景適配:FireRedASR在短視頻、直播、語音輸入和智能助手等多種日常場景下表現出色,與業內領先的ASR服務提供商和Paraformer-Large相比,CER相對降低23.7%~40.0%。
歌詞識別能力:在需要歌詞識別能力的場景中,FireRedASR-LLM的CER實現了50.2%~66.7%的相對降低,展現了極強的適配能力。
多語言支持:FireRedASR支持普通話,在中文方言和英語語音識別方面表現出色,進一步拓寬了其應用范圍。
FireRedASR模型兩個核心版本:
FireRedASR-LLM
架構:采用Encoder-Adapter-LLM框架,結合大型語言模型Qwen2-7B-Instruct,通過LoRA微調實現端到端語音交互。
性能:在普通話基準測試中CER為3.05%,相比前SOTA模型錯誤率降低8.4%;歌詞識別場景CER相對降低50.2%~66.7%。
特點:參數8.3B,專注極致精度,適合高要求場景如專業字幕生成。
FireRedASR-AED
架構:基于注意力編碼器-解碼器(Conformer編碼器+Transformer解碼器),參數1.1B。
性能:CER 3.18%,優于12B參數的Seed-ASR,推理效率更高。
特點:平衡準確率與計算效率,適合實時應用如直播字幕、語音助手。
FireRedASR技術亮點:
多場景適配:在短視頻、直播等日常場景中,CER相對降低23.7%~40.0%;支持中文方言和英語。
開源生態:模型與代碼已開源(GitHub),采用工業級設計,支持社區二次開發。
訓練策略:LLM版本固定大部分參數,僅訓練編碼器和適配器,保留預訓練能力。
FireRedASR的應用場景
智能語音交互:FireRedASR可以應用于智能語音助手、語音輸入法等場景,提供高精度的語音識別服務。
多媒體內容理解:FireRedASR在視頻字幕生成、歌詞識別等多媒體內容理解場景中表現出色。
日常場景應用:FireRedASR在短視頻、直播、語音輸入和智能助手等多種日常場景下表現出色,與業內領先的ASR服務提供商和Paraformer-Large相比,CER相對降低23.7%~40.0%。
FireRedASR相關鏈接:
項目地址:https://github.com/FireRedTeam/FireRedASR
論文地址:https://arxiv.org/abs/2501.14350