我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Ai應用
Ai資訊
AI生圖
AI生視頻
FastbuildAI

首頁 > Ai資訊 > Ai產(chǎn)品

MOSS-TTSD：開源雙語對話語音合成模型

MOSS-TTSD于2025-08-04發(fā)布在Ai產(chǎn)品

MOSS-TTSD是清華大學語音與語言實驗室聯(lián)合騰訊 ai Lab 等機構開發(fā)的開源雙語對話語音合成模型。它支持中英文，能把兩個說話者的對話腳本轉(zhuǎn)換成自然、有表現(xiàn)力的對話語音。該模型基于 Qwen3-1.7B-base 模型繼續(xù)訓練，用離散化語音序列建模，通過 XY-Tokenizer 把語音壓縮到 1kbps，同時保留語義和聲學信息。

MOSS-TTSD模型支持中英雙語，能零樣本克隆多個說話人的音色，最長可生成 960 秒的語音，適合 AI 播客、影視配音、長篇訪談等場景。它的模型權重、推理代碼和 API 接口都已開源，還支持免費商業(yè)使用。

MOSS-TTSD：開源雙語對話語音合成模型

主要特點

?高表現(xiàn)力的對話語音：依托統(tǒng)一的語義 - 聲學神經(jīng)音頻編解碼器、預訓練的大型語言模型，以及數(shù)百萬小時的 TTS 數(shù)據(jù)和 40 萬小時的合成與真實對話語音構建，能生成有自然對話韻律、表現(xiàn)力強的類人對話語音。

?雙揚聲器語音克隆：支持零樣本雙揚聲器語音克隆，能根據(jù)對話腳本準確切換說話人，生成對話語音。

?中英雙語支持：可生成中英文兩種語言的高表現(xiàn)力語音。

?長語音生成：借助低比特率編解碼器和訓練框架優(yōu)化，專門針對長語音生成做了訓練。

?完全開源且可商用：MOSS-TTSD 及其未來更新會完全開源，且支持免費商業(yè)使用。

MOSS-TTSD技術原理

?模型架構：在 Qwen3-1.7B-base 模型基礎上微調(diào)，采用離散化語音建模。通過 8 層 RVQ（殘差向量量化）把語音信號轉(zhuǎn)換成離散 token 序列，用自回歸方式結(jié)合 Delay Pattern 生成，最后由解碼器還原成語音。

?核心創(chuàng)新：XY-Tokenizer 有雙階段多任務學習流程。第一階段同時訓練自動語音識別（ASR）和語音重建任務，融合語義和粗粒度聲學信息；第二階段固定編碼器和量化器，只訓練解碼器，加入重建損失和 GAN 損失，增強細節(jié)表現(xiàn)。

?數(shù)據(jù)規(guī)模與預訓練：用約 100 萬小時的單說話人語音數(shù)據(jù)和 40 萬小時的對話語音數(shù)據(jù)訓練，數(shù)據(jù)經(jīng)過嚴格篩選和標注，還進行了中英文 TTS 預訓練。

MOSS-TTSD技術原理

應用場景

?AI 播客制作：MOSS-TTSD能自動把文本轉(zhuǎn)成多人對話的播客音頻，支持零樣本人聲克隆和長語音生成，能降低制作成本。

?影視配音與動畫：為影視作品、動畫生成自然對話語音，支持多語言切換，提高配音效率。

?長篇訪談與會議記錄：把訪談或會議文本轉(zhuǎn)成語音，保留對話的韻律和情感，方便存檔和分享。

優(yōu)勢與特點

?開源且商用友好：MOSS-TTSD模型權重、推理代碼和 API 接口都已開源，用戶可以免費商業(yè)使用。

?自然度和表現(xiàn)力：聲音自然度和表現(xiàn)力達到業(yè)界領先水平。

?支持聲音事件控制：比如笑聲等非語言聲音，讓語音更有表現(xiàn)力。

開源地址：https://github.com/OpenMOSS/MOSS-TTSD

MOSS-TTSD官網(wǎng)：https://www.open-moss.com/cn/

收藏

Qwen-Image：阿里云通義千問團隊開源的圖形海報生成模型

上一篇

Qwen-Image：阿里云通義千問團隊開源的圖形海報生成模型

馬斯克旗下的xAI將推出全新的AI視頻生成器：Imagine

下一篇

馬斯克旗下的xAI將推出全新的AI視頻生成器：Imagine

相關文章

Kyutai TTS：專為實時場景設計的開源文本轉(zhuǎn)語

Kyutai TTS：專為實時場景設計的開源文本轉(zhuǎn)語

2025-07-05

Bland TTS使用教程指南

Bland TTS使用教程指南

2025-06-07

Audiblez：免費開源的多語言TTS有聲書制作工

Audiblez：免費開源的多語言TTS有聲書制作工

2025-05-12

Muyan-TTS：沐言智語發(fā)布的開源、可訓練的TT

Muyan-TTS：沐言智語發(fā)布的開源、可訓練的TT

2025-05-01

Speech-02：MiniMax Audio新發(fā)布

Speech-02：MiniMax Audio新發(fā)布

2025-04-01

MegaTTS 3：字節(jié)跳動推出的一款零樣本文本到語

MegaTTS 3：字節(jié)跳動推出的一款零樣本文本到語

2025-03-29

最新文章

最新工具

xAIcreator

一款幫助管理社交媒體內(nèi)容的工具，主要用來優(yōu)化推特賬號的運營。主要...

WearView

一個具有虛擬模特的專業(yè)時尚攝影AI平臺，它不用實地拍攝、不用工作...

Linerider

一款經(jīng)典的物理模擬小游戲，游戲玩法很簡單，也很有趣：玩家用鼠標畫...

Tic Tac Toe

也叫井字棋，非常經(jīng)典的兩人對弈游戲，玩法是在3×3方格上，兩名玩...

Transor AI

專業(yè)AI翻譯工具，可以即時翻譯網(wǎng)頁、文檔、圖片與視頻，提供免費的...

Slither.IO

一款熱門多人在線貪吃蛇游戲。玩家操控小蛇，吃地圖上的小點來變長變...

Chessigma

一個免費的國際象棋分析工具，能分析你在 Chess、Liches...

Chronas

一個將歷史與地理結(jié)合的互動平臺。你可以通過該Chronas查看不...

Hordes.io

一款基于瀏覽器免費的多人在線戰(zhàn)略游戲，屬于 .io 類型，玩法類...

MineFun.io

一款在線方塊風格游戲，有跑酷模式，玩家能跳躍、躲障礙，挑戰(zhàn)多種地...

人生若只如初見

用戶登錄

主站蜘蛛池模板：渝中区| 大余县| 阜南县| 临夏市| 襄樊市| 祁东县| 德昌县| 汽车| 肇源县| 科技| 咸丰县| 南通市| 萨嘎县| 涿鹿县| 金华市| 富民县| 商洛市| 渭南市| 雷波县| 海门市| 深水埗区| 石渠县| 宁陕县| 湛江市| 林口县| 阿克| 洛扎县| 通城县| 萨嘎县| 新巴尔虎右旗| 富顺县| 竹山县| 正镶白旗| 广昌县| 茌平县| 洪江市| 岫岩| 罗平县| 卢氏县| 忻州市| 岢岚县|