SpeechGPT 2.0-preview:首個(gè)面向交互和情景智能的語音對話模型
復(fù)旦大學(xué)OpenMOSS人工智能開放實(shí)驗(yàn)室推出首個(gè)面向?qū)崟r(shí)交互和情景智能的開源語音對話模型:SpeechGPT 2.0-preview,SpeechGPT 2.0-preview基于百萬小時(shí)級中文語音數(shù)據(jù)訓(xùn)練,以端到端架構(gòu)實(shí)現(xiàn)語音與文本模態(tài)的高度融合,可根據(jù)指令生成多情感、多風(fēng)格的語音,包括模仿特定角色的情緒。
一、核心技術(shù)突破
1. 端到端語音建模
模型通過語義-聲學(xué)聯(lián)合建模,直接處理語音輸入并生成語音或文本輸出,無需傳統(tǒng)級聯(lián)式ASR(語音識別)和TTS(語音合成)模塊。其自研的超低比特率流式語音Codec(750bps)將語音壓縮至每秒75個(gè)token,結(jié)合Codec Patchify技術(shù)聚合相鄰時(shí)間步的語音token為統(tǒng)一向量,有效緩解跨模態(tài)建模沖突,支持流式輸入輸出,實(shí)現(xiàn)200ms以內(nèi)延遲的實(shí)時(shí)交互。
2. 語音-文本混合建模
模型采用多階段訓(xùn)練流程:
模態(tài)適應(yīng)預(yù)訓(xùn)練:利用未標(biāo)注語音數(shù)據(jù)學(xué)習(xí)語音模態(tài)特征;
跨模態(tài)指令微調(diào):通過大規(guī)??缒B(tài)指令數(shù)據(jù)集(SpeechInstruct)提升指令理解能力;
鏈?zhǔn)侥B(tài)微調(diào):優(yōu)化跨模態(tài)轉(zhuǎn)換的精準(zhǔn)度,例如接收語音指令后用文本思考再以語音回復(fù)。
3. 多模態(tài)能力對齊
通過語音文本對齊預(yù)訓(xùn)練,模型“涌現(xiàn)”出未顯式訓(xùn)練的泛化能力,例如無需語速調(diào)整數(shù)據(jù)即可控制語速,或模仿未見過的角色語氣風(fēng)格。
二、功能特性與性能表現(xiàn)
1. 擬人化交互體驗(yàn)
情感與風(fēng)格控制:支持多情感(如虛弱、歡快)、多音色(男女切換)及多風(fēng)格(詩歌朗誦、方言模仿)的精準(zhǔn)控制,角色扮演能力突出;
2. 實(shí)時(shí)打斷交互:百毫秒級響應(yīng)速度支持自然對話中的即時(shí)打斷與續(xù)接。
智能與實(shí)用性
文本能力集成:在語音表現(xiàn)力基礎(chǔ)上,保留文本模型的智商,支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識庫接入等功能;
多任務(wù)兼容性:可處理長文檔解析、多輪對話等場景,兼容短文本任務(wù)的性能未因長上下文能力而降低。
3. 開源生態(tài)支持
模型代碼、權(quán)重及技術(shù)報(bào)告完全開源(Apache 2.0協(xié)議),提供Hugging Face預(yù)訓(xùn)練模型和Gradio演示界面,支持本地部署;
集成vLLM框架優(yōu)化推理效率,稀疏注意力機(jī)制降低內(nèi)存占用96.7%,提升處理速度3-7倍。
三、應(yīng)用場景
智能助手:支持自然語音交互的客服、教育或醫(yī)療助手,如實(shí)時(shí)口語練習(xí)、情感陪伴;
內(nèi)容創(chuàng)作:自動(dòng)生成有聲書、詩歌朗誦或方言內(nèi)容,豐富多媒體創(chuàng)作形式;
無障礙通信:為聽障或言語障礙者提供實(shí)時(shí)語音轉(zhuǎn)文字及合成服務(wù)。
SpeechGPT 2.0-preview通過端到端架構(gòu)與跨模態(tài)對齊技術(shù),實(shí)現(xiàn)了語音交互的低延遲、高擬真與強(qiáng)智能,成為開源社區(qū)在語音大模型領(lǐng)域的重要突破。其開源生態(tài)與多場景適配能力,不僅為開發(fā)者提供了高效工具,更推動(dòng)了人機(jī)交互向情感化、自然化的深度演進(jìn)。
Github代碼庫:https://github.com/OpenMOSS/SpeechGPT-2.0-preview
在線體驗(yàn):https://sp2.open-moss.com(測了下有點(diǎn)卡,在笑的時(shí)候斷斷續(xù)續(xù)的,不過還是挺自然,就是答非所問)