Speech-02:MiniMax Audio新發布的一款強大的文本轉語音(TTS)模型
Speech-02是什么?
MiniMax Audio Speech-02是一款強大的文本轉語音(TTS)模型,能夠將任何文件或URL瞬間轉化為逼真的音頻 。它支持高達20萬字符的單次輸入,覆蓋30多種語言,并帶有地道口音 。此外,Speech-02還支持無限語音克隆、亞秒級流媒體處理以及多種音頻格式(如FLAC、WAV、MP3和PCM) 。
Speech-02模型提供兩種版本:speech-02-hd-preview(以99%的語音相似度和工作室級清晰度為特點,適合配音、有聲書等需要逼真表現的場景)和speech-02-turbo-preview(在低延遲和高性能之間取得平衡,適合實時應用) 。
語言與語音能力
多語言支持:Speech-02支持30多種語言的文本轉語音,包括英語、中文、日語、韓語、法語、德語、西班牙語、葡萄牙語、意大利語、阿拉伯語、俄語、土耳其語、荷蘭語、烏克蘭語、越南語、印地語、泰語、波蘭語、羅馬尼亞語、希臘語、芬蘭語和印尼語等,且帶有地道口音。
語音庫豐富:擁有300多個真實自然的聲音,支持多種語言的地道表達。
技術性能
單次輸入字符數:單次輸入支持高達20萬字符。
流媒體處理速度:支持亞秒級流媒體處理。
模型版本:包括speech-02-hd-preview和speech-02-turbo-preview。前者以99%的語音相似度和工作室級清晰度為特點,適合配音、有聲書等需要逼真表現的場景;后者則在低延遲和高性能之間取得平衡,適合實時應用。
Speech-02功能特性
無限語音克隆:能夠以行業領先的質量,快速克隆出多種風格和語調的語音。
語音控制:用戶可以輕松控制語音的情感、音量、速度和輸出格式。
語音混合:可以將現有的語音組合起來,創造出全新的獨特語音。
音頻格式支持:支持FLAC、WAV、MP3和PCM等多種音頻格式。
Speech-02應用場景
有聲書制作:適合將長篇小說、學術論文等轉化為高質量的音頻內容。
播客創作:幫助播客創作者制作更具吸引力和多樣性的內容。
電影與游戲配音:提供電影級低音和沉浸式音頻效果。
國際會議與翻譯:支持在多種語言之間即時無縫切換。
目前,Speech-02模型已經在MiniMax Audio平臺及API平臺上線,但國內版尚未推出。
官方鏈接
MiniMax Audio平臺:https://www.minimax.io/audio
MiniMax Audio API平臺:https://www.minimax.io/platform