SpeechGPT 2.0-preview:首個面向交互和情景智能的語音對話模型
復旦大學OpenMOSS人工智能開放實驗室推出首個面向實時交互和情景智能的開源語音對話模型:SpeechGPT 2.0-preview,SpeechGPT 2.0-preview基于百萬小時級中文語音數據訓練,以端到端架構實現語音與文本模態的高度融合,可根據指令生成多情感、多風格的語音,包括模仿特定角色的情緒。
一、核心技術突破
1. 端到端語音建模
模型通過語義-聲學聯合建模,直接處理語音輸入并生成語音或文本輸出,無需傳統級聯式ASR(語音識別)和TTS(語音合成)模塊。其自研的超低比特率流式語音Codec(750bps)將語音壓縮至每秒75個token,結合Codec Patchify技術聚合相鄰時間步的語音token為統一向量,有效緩解跨模態建模沖突,支持流式輸入輸出,實現200ms以內延遲的實時交互。
2. 語音-文本混合建模
模型采用多階段訓練流程:
模態適應預訓練:利用未標注語音數據學習語音模態特征;
跨模態指令微調:通過大規模跨模態指令數據集(SpeechInstruct)提升指令理解能力;
鏈式模態微調:優化跨模態轉換的精準度,例如接收語音指令后用文本思考再以語音回復。
3. 多模態能力對齊
通過語音文本對齊預訓練,模型“涌現”出未顯式訓練的泛化能力,例如無需語速調整數據即可控制語速,或模仿未見過的角色語氣風格。
二、功能特性與性能表現
1. 擬人化交互體驗
情感與風格控制:支持多情感(如虛弱、歡快)、多音色(男女切換)及多風格(詩歌朗誦、方言模仿)的精準控制,角色扮演能力突出;
2. 實時打斷交互:百毫秒級響應速度支持自然對話中的即時打斷與續接。
智能與實用性
文本能力集成:在語音表現力基礎上,保留文本模型的智商,支持工具調用、聯網搜索、外掛知識庫接入等功能;
多任務兼容性:可處理長文檔解析、多輪對話等場景,兼容短文本任務的性能未因長上下文能力而降低。
3. 開源生態支持
模型代碼、權重及技術報告完全開源(Apache 2.0協議),提供Hugging Face預訓練模型和Gradio演示界面,支持本地部署;
集成vLLM框架優化推理效率,稀疏注意力機制降低內存占用96.7%,提升處理速度3-7倍。
三、應用場景
智能助手:支持自然語音交互的客服、教育或醫療助手,如實時口語練習、情感陪伴;
內容創作:自動生成有聲書、詩歌朗誦或方言內容,豐富多媒體創作形式;
無障礙通信:為聽障或言語障礙者提供實時語音轉文字及合成服務。
SpeechGPT 2.0-preview通過端到端架構與跨模態對齊技術,實現了語音交互的低延遲、高擬真與強智能,成為開源社區在語音大模型領域的重要突破。其開源生態與多場景適配能力,不僅為開發者提供了高效工具,更推動了人機交互向情感化、自然化的深度演進。
Github代碼庫:https://github.com/OpenMOSS/SpeechGPT-2.0-preview
在線體驗:https://sp2.open-moss.com(測了下有點卡,在笑的時候斷斷續續的,不過還是挺自然,就是答非所問)