
FireRedASR
FireRedASR簡(jiǎn)介
FireRedASR 是由小紅書 FireRed 團(tuán)隊(duì)于2025年2月9日發(fā)布并開(kāi)源的基于大模型的語(yǔ)音識(shí)別模型,它在中文普通話語(yǔ)音識(shí)別領(lǐng)域取得了新的SOTA(字錯(cuò)誤率CER 3.05%),并支持方言、英語(yǔ)及歌詞識(shí)別。
FireRedASR的主要功能:
高精度語(yǔ)音識(shí)別:FireRedASR-LLM(8.3B參數(shù)量)在公開(kāi)測(cè)試集上取得了3.05%的字錯(cuò)誤率(CER),成為新的SOTA,相比此前的SOTA模型Seed-ASR(12B+參數(shù))降低了8.4%的錯(cuò)誤率。
高效推理:FireRedASR-AED(1.1B參數(shù)量)在保持高準(zhǔn)確率的同時(shí),顯著提升了推理效率,其CER為3.18%。
多場(chǎng)景適配:FireRedASR在短視頻、直播、語(yǔ)音輸入和智能助手等多種日常場(chǎng)景下表現(xiàn)出色,與業(yè)內(nèi)領(lǐng)先的ASR服務(wù)提供商和Paraformer-Large相比,CER相對(duì)降低23.7%~40.0%。
歌詞識(shí)別能力:在需要歌詞識(shí)別能力的場(chǎng)景中,F(xiàn)ireRedASR-LLM的CER實(shí)現(xiàn)了50.2%~66.7%的相對(duì)降低,展現(xiàn)了極強(qiáng)的適配能力。
多語(yǔ)言支持:FireRedASR支持普通話,在中文方言和英語(yǔ)語(yǔ)音識(shí)別方面表現(xiàn)出色,進(jìn)一步拓寬了其應(yīng)用范圍。
FireRedASR模型兩個(gè)核心版本:
FireRedASR-LLM
架構(gòu):采用Encoder-Adapter-LLM框架,結(jié)合大型語(yǔ)言模型Qwen2-7B-Instruct,通過(guò)LoRA微調(diào)實(shí)現(xiàn)端到端語(yǔ)音交互。
性能:在普通話基準(zhǔn)測(cè)試中CER為3.05%,相比前SOTA模型錯(cuò)誤率降低8.4%;歌詞識(shí)別場(chǎng)景CER相對(duì)降低50.2%~66.7%。
特點(diǎn):參數(shù)8.3B,專注極致精度,適合高要求場(chǎng)景如專業(yè)字幕生成。
FireRedASR-AED
架構(gòu):基于注意力編碼器-解碼器(Conformer編碼器+Transformer解碼器),參數(shù)1.1B。
性能:CER 3.18%,優(yōu)于12B參數(shù)的Seed-ASR,推理效率更高。
特點(diǎn):平衡準(zhǔn)確率與計(jì)算效率,適合實(shí)時(shí)應(yīng)用如直播字幕、語(yǔ)音助手。
FireRedASR技術(shù)亮點(diǎn):
多場(chǎng)景適配:在短視頻、直播等日常場(chǎng)景中,CER相對(duì)降低23.7%~40.0%;支持中文方言和英語(yǔ)。
開(kāi)源生態(tài):模型與代碼已開(kāi)源(GitHub),采用工業(yè)級(jí)設(shè)計(jì),支持社區(qū)二次開(kāi)發(fā)。
訓(xùn)練策略:LLM版本固定大部分參數(shù),僅訓(xùn)練編碼器和適配器,保留預(yù)訓(xùn)練能力。
FireRedASR的應(yīng)用場(chǎng)景
智能語(yǔ)音交互:FireRedASR可以應(yīng)用于智能語(yǔ)音助手、語(yǔ)音輸入法等場(chǎng)景,提供高精度的語(yǔ)音識(shí)別服務(wù)。
多媒體內(nèi)容理解:FireRedASR在視頻字幕生成、歌詞識(shí)別等多媒體內(nèi)容理解場(chǎng)景中表現(xiàn)出色。
日常場(chǎng)景應(yīng)用:FireRedASR在短視頻、直播、語(yǔ)音輸入和智能助手等多種日常場(chǎng)景下表現(xiàn)出色,與業(yè)內(nèi)領(lǐng)先的ASR服務(wù)提供商和Paraformer-Large相比,CER相對(duì)降低23.7%~40.0%。
FireRedASR相關(guān)鏈接:
項(xiàng)目地址:https://github.com/FireRedTeam/FireRedASR
論文地址:https://arxiv.org/abs/2501.14350