Seed-ASR:字節(jié)跳動自動語音識別模型
Seed-ASR,字節(jié)跳動自動語音識別模型,可將各種語音轉(zhuǎn)化為文本信息,與傳統(tǒng) TTS 面向單一任務(wù)不同,Seed-TTS 能夠建模各種聲音,且允許同時從很多個維度進行操控,可識別不同語言、方言、口音,甚至吞字這類語音上的瑕疵。Seed-ASR在超過2000萬小時的語音數(shù)據(jù)和近90萬小時的配對ASR數(shù)據(jù)上進行了訓(xùn)練。不僅支持普通話,還能識別13種中國方言和7種外語以及各種口音的英語。
Seed-ASR 具有強大的上下文感知能力,能夠識別在特定上下文下的語音內(nèi)容。例如,模型可以利用歷史對話或會議記錄來更準確地識別當(dāng)前語音中的人名、地名或其他上下文相關(guān)的關(guān)鍵詞。
Seed-ASR具備強大的擴展性。這意味著它不只是一個固定的系統(tǒng),而是可以根據(jù)具體需求進行定制的平臺。比如說,你想讓它專門識別醫(yī)學(xué)術(shù)語,或者理解某種特殊口音,都可以通過微調(diào)來實現(xiàn)。
Seed-ASR最核心的技術(shù)就是把大語言模型融入到了語音識別中,為 Seed-ASR引入了上下文理解能力。這可不是簡單地把兩個系統(tǒng)拼在一起,而是從根本上改變了處理語音的方式。它就像是給語音識別系統(tǒng)裝上了一個超級大腦,不僅能聽,還能思考。
Seed-ASR技術(shù)亮點:
高精度識別:通過數(shù)十億參數(shù)的模型處理復(fù)雜的語音輸入,實現(xiàn)高精度識別。
大容量模型:使用大語言模型,提高了語音識別的準確性和上下文理解能力,好比是用"超級計算機"來幫你聽寫筆記,想想就覺得太酷了。
支持多種語言:包括普通話、13種中國方言以及多種外語,并計劃擴展至40多種語言。
上下文感知:能夠結(jié)合上下文信息,提高識別的準確性,就像你跟朋友聊天,它能聽懂你們之前說過什么,然后根據(jù)這些信息更準確地理解你現(xiàn)在說的話。
分階段訓(xùn)練方法:包括自監(jiān)督學(xué)習(xí)、監(jiān)督微調(diào)、上下文微調(diào)和強化學(xué)習(xí),逐步增強模型能力。
Seed-ASR應(yīng)用場景:
人機交互:提供語音輸入渠道,通過實時將語音轉(zhuǎn)成文字作為輸入,達到和設(shè)備/硬件/應(yīng)用快速、便捷交互的目的。
內(nèi)容審核:將錄音識別為文字,通過質(zhì)檢規(guī)則對文本進行分析,及時發(fā)現(xiàn)違規(guī)內(nèi)容并干預(yù)處理。
會議訪談轉(zhuǎn)寫:將會議、訪談音頻實時或異步識別為文字,自動切分有語音部分識別,降本增效。
音視頻字幕:支持自動將音視頻中的語音、歌詞識別轉(zhuǎn)換為文本,一鍵生成與音視頻對應(yīng)的字幕內(nèi)容。
Seed-ASR 已在豆包 APP 中應(yīng)用,被網(wǎng)友用在英語會話、虛擬聊天伴侶、復(fù)刻親友聲音等多個場景。面向更多企業(yè)客戶,Seed-ASR 依托火山引擎, 在語音交互、內(nèi)容審核、會議訪談轉(zhuǎn)寫、音視頻字幕等場景也有落地。
截至目前,豆包大模型團隊語音方向已發(fā)布 Seed-TTS 、Seed-ASR 等多項技術(shù)成果。
Seed-ASR官網(wǎng):https://bytedancespeech.github.io/seedasr_tech_report/