CSM:Sesame公司的語(yǔ)音合成模型,如同與真人交流
CSM是什么?
CSM(Conversational Speech Model)是Sesame公司開(kāi)發(fā)的一種對(duì)話語(yǔ)音合成模型。它基于Transformer架構(gòu),采用端到端的多模態(tài)學(xué)習(xí)方法,能結(jié)合上下文和情感背景,合成出極為逼真的真人語(yǔ)音,在語(yǔ)音合成領(lǐng)域表現(xiàn)突出。
CSM的功能特征
自然語(yǔ)音表現(xiàn):模仿真實(shí)人聲的語(yǔ)調(diào)、節(jié)奏和音色,解決傳統(tǒng)語(yǔ)音合成系統(tǒng)語(yǔ)調(diào)單一的問(wèn)題,讓合成語(yǔ)音宛如真人發(fā)聲。
細(xì)膩情感表達(dá):可融入情感、停頓、重音等自然元素,傳遞憤怒、悲傷、興奮等多種情緒,使對(duì)話更具感染力。
低延遲響應(yīng):通過(guò)優(yōu)化的計(jì)算方法,保證對(duì)話流暢,ai響應(yīng)時(shí)間極短,接近人類(lèi)即時(shí)反應(yīng)。
多模態(tài)交互:能同時(shí)輸入文本和語(yǔ)音歷史記錄,具備上下文感知能力,理解對(duì)話背景和情感,讓語(yǔ)音更自然、互動(dòng)性更強(qiáng)。
個(gè)性一致性:保持穩(wěn)定的語(yǔ)音特征,避免在不同情境下出現(xiàn)不協(xié)調(diào)的情況,消除傳統(tǒng)TTS系統(tǒng)的機(jī)器人式語(yǔ)調(diào)。
對(duì)話動(dòng)態(tài)建模:模擬人類(lèi)對(duì)話中的自然停頓、語(yǔ)速、重音等因素,增強(qiáng)語(yǔ)音交互的真實(shí)感和互動(dòng)感。
CSM的技術(shù)亮點(diǎn)
端到端多模態(tài)Transformer架構(gòu):直接從文本生成高質(zhì)量語(yǔ)音,無(wú)需中間處理步驟。以Transformer為核心,使AI語(yǔ)音具備上下文感知能力。文本用LLaMA Tokenizer處理,語(yǔ)音用Mimi Tokenizer編碼,并采用RVQ量化技術(shù)。
基于Residual Vector Quantization(RVQ)的音頻編碼:使用語(yǔ)義Token和聲學(xué)Token兩種音頻Token,語(yǔ)義Token代表語(yǔ)音語(yǔ)義和發(fā)音特征,聲學(xué)Token代表音高、音色、韻律等細(xì)節(jié)。通過(guò)層級(jí)式RVQ訓(xùn)練,不同層次預(yù)測(cè)核心和細(xì)節(jié)特征,避免信息丟失,提升語(yǔ)音自然性。
計(jì)算優(yōu)化與低延遲推理
延遲模式優(yōu)化:先計(jì)算較低級(jí)別的RVQ層,再依次計(jì)算高層細(xì)節(jié)特征,加快推理速度。
計(jì)算分?jǐn)偅河?xùn)練階段隨機(jī)采樣1/16的音頻幀優(yōu)化,減少計(jì)算需求且不影響音頻質(zhì)量。
兩階段Transformer結(jié)構(gòu):主干Transformer處理文本與音頻信息,預(yù)測(cè)基礎(chǔ)結(jié)構(gòu);輕量級(jí)解碼器細(xì)化音頻,降低計(jì)算量,提高推理速度。
CSM的廣泛應(yīng)用
智能助手:讓智能音箱和虛擬助手的語(yǔ)音交互更自然親切,如同與真人交流。
客戶服務(wù):在客服系統(tǒng)中應(yīng)用,使用戶享受更順暢的交互體驗(yàn),提升滿意度。
教育培訓(xùn):在語(yǔ)言學(xué)習(xí)應(yīng)用中營(yíng)造真實(shí)對(duì)話環(huán)境,助力學(xué)習(xí)者理解和練習(xí)語(yǔ)言知識(shí)。
娛樂(lè)產(chǎn)業(yè):為游戲、動(dòng)畫(huà)等行業(yè)的角色賦予生動(dòng)逼真的語(yǔ)音,讓故事更吸引人。
虛擬助理打造:創(chuàng)造語(yǔ)音更自然的虛擬助理,提供貼心服務(wù)。
教育平臺(tái)互動(dòng):在教育平臺(tái)互動(dòng)語(yǔ)音對(duì)話中發(fā)揮作用,提升學(xué)習(xí)趣味性和效果。
CSM的使用方式
在線體驗(yàn)
可訪問(wèn)Sesame官方網(wǎng)站(sesame.com/voicedemo)體驗(yàn)語(yǔ)音合成技術(shù)效果。
集成到產(chǎn)品中
開(kāi)發(fā)者能將Sesame語(yǔ)音模型集成到語(yǔ)音助手、智能客服系統(tǒng)等產(chǎn)品或服務(wù)中,提升語(yǔ)音交互能力。
研究與開(kāi)發(fā)
Sesame公司計(jì)劃擴(kuò)大模型規(guī)模、增加數(shù)據(jù)集量。研究人員可關(guān)注官方介紹及演示(https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice )了解最新成果和技術(shù)進(jìn)展 。
如果想在線體驗(yàn),可以訪問(wèn):https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo