Moshi

一個多流實時語音生成 Transformer 模型，支持全雙工語音對話，同時語音輸入和輸出，以及處理復雜對話場景的能力，包括重疊語音、中斷和情緒表達等非語言信息。

#Ai工具箱 #Ai語音工具 #語音合成 #語音識別

Moshi簡介

Moshi 是一個多流實時語音生成 Transformer 模型，支持全雙工語音對話。其主要特點是同時語音輸入和輸出（全雙工），以及處理復雜對話場景的能力，包括重疊語音、中斷和情緒表達等非語言信息。

這意味著它可以同時聽和說，旨在解決傳統對話系統中的一些問題，例如延遲、非語言信息（例如情緒）丟失以及對話輪流的僵化結構。

全雙工通信：傳統的對話系統是回合制的（一個人在另一個人開始之前結束講話）。 Moshi 突破了這一限制，支持全雙工通信。這意味著 Moshi 可以在用戶說話時生成語音響應，不受回合限制，并且可以處理復雜的對話動態，例如重疊語音、中斷和快速反饋。

多流處理：Moshi 通過處理多個音頻流來實現同時收聽和生成語音。這種多流架構使其能夠靈活處理用戶和系統之間的語音交互，而不會中斷對話的自然流程。

相比傳統的語音對話系統， Moshi 有幾個顯著的優勢：

實時響應：Moshi的響應速度非常快，延遲僅為160-200毫秒，接近自然對話中的反應速度，因此可以提供更流暢的對話體驗。
語音到語音處理：傳統系統通常依賴于語音到文本到語音的過程，而 Moshi 可以直接處理語音輸入并生成語音輸出，保留語氣和情緒等非語言信息。
全雙工對話：Moshi不依賴于嚴格的對話輪流，而是可以同時處理用戶和系統語音，這意味著它可以處理重疊語音和中斷，更接近人類對話的自然形式。

Moshi 的主要特點：

實時語音對話：Moshi 直接從音頻輸入生成音頻輸出，而不是依賴傳統的語音到文本到語音的過程。通過直接處理語音數據，Moshi 保留了語氣、情緒、重疊語音和中斷等非語言信息，確保對話更加自然和流暢。
全雙工通信：Moshi 能夠同時聽和說，這意味著它可以在用戶說話時生成語音響應，而無需嚴格的對話輪流。它可以處理復雜的對話場景，例如重疊的語音和可以隨時插入的不間斷反饋（例如“嗯”或“我明白”）。
低延遲：Moshi 的設計延遲非常低，理論上只有 160 毫秒，實際上約為 200 毫秒。這意味著 Moshi 可以近乎實時地響應用戶輸入，提供更流暢的對話體驗。
內心獨白法：Moshi 在生成語音之前預測文本標記，這顯著提高了生成語音的語言質量和一致性。這不僅使生成的語音更加清晰，還提高了系統在流媒體環境下的語音識別和文本轉語音能力。 Moshi通過引入“內心獨白”機制，實現了流式語音識別（ASR）和文本轉語音（TTS）功能，支持在連續對話流中同時處理語言和音頻。
并行處理多個音頻流：Moshi 能夠同時處理用戶和系統的語音流。這種多流處理能力讓Moshi不僅能夠生成自己的語音，還能實時理解并響應用戶的語音。
情緒和言語動態處理：通過直接處理語音而不是中間文本，Moshi 能夠理解和生成充滿情感的語音，并處理復雜的對話動態，例如情緒表達、聲音變化等。
支持復雜的對話動態：Moshi 能夠處理自然對話的復雜動態，例如打斷、交錯、感嘆詞和響應。傳統系統依賴于清晰的對話輪流（一個人在另一個人輪流之前發言），但 Moshi 消除了這一限制，使對話更加自然。

Moshi的模型架構

Moshi 由三個主要部分組成： Helium，一個用 2.1 萬億個 token 訓練的 7B 語言模型； Mimi，一種對語義和聲學信息進行建模的神經音頻編解碼器；以及新的多流架構，可以分別對用戶和 Moshi 的音頻進行建模。

通過協同工作，這些模塊可以實現流暢的全雙工對話、情感表達以及復雜對話動態的處理。

Helium 文本語言模型

氦氣是 Moshi 的核心。它是一個基于 Transformer 架構（類似于 GPT）的具有 70 億個參數的文本語言模型。 Helium為Moshi提供了強大的語言理解和生成能力，能夠處理復雜的文本推理和對話任務。

其訓練數據包括 2.1 萬億個英語單詞，賦予其廣泛的知識和語言能力。

Mimi 神經音頻編解碼器:Mimi是 Moshi 的音頻處理組件。它是一種神經網絡音頻編解碼器，負責將音頻轉換為離散語音標記，并能夠反向生成高質量的語音輸出。

Mimi使用殘差矢量量化（RVQ）技術將語音數據編碼為離散的語音和語義標記，確保高語音保真度和語言一致性。

通過結合語義和聲學標記，Mimi 不僅可以生成自然語音，還可以處理復雜的語音上下文和情感信息。

內心獨白法:內部獨白方法是 Moshi 語音生成的關鍵技術，它允許模型在生成語音之前預測與音頻同步的文本標簽。這種方法不僅提高了生成語音的語言質量，還讓Moshi能夠在流媒體環境下實現語音識別和文本到語音的轉換功能。

同步生成文本和語音：在生成音頻之前，Moshi 生成與其語音輸出相對應的文本流。該文本流作為語音生成的基礎，使語音生成更加準確，有助于處理復雜的對話場景。

流媒體兼容性：這種方法允許 Moshi 處理語音，同時仍然在流媒體環境中實現高效的語音識別和文本轉語音 (TTS)。

該模型架構旨在處理多個并行音頻流并實時生成語音和文本。 Moshi 可以在處理用戶語音的同時生成系統語音，這使其能夠支持不間斷的自然對話。

Moshi詳細技術方法

1. 語音到語音生成架構

Moshi 的核心創新在于將語音對話視為語音到語音的生成任務，而不是傳統的文本到語音再到語音的多組件過程。傳統的語音對話系統包括語音活動檢測（VAD）、語音識別（ASR）、自然語言理解（NLU）、自然語言生成（NLG）和文本轉語音（TTS）等多個獨立模塊。

Moshi 直接生成語音標記，使得語音在理解和生成過程中不依賴于中間文本表示，從而避免了信息（例如情感、語氣和非語言聲音）的丟失。

2. Helium 文本語言模型

Moshi 基于 Helium 文本語言模型，這是一個具有 7B 參數的大型文本生成模型。 Helium經過2.1萬億英文數據預訓練，具有強大的語言理解、推理和生成能力。它是 Moshi 的語義理解基礎，支持復雜的自然語言處理功能，包括開放式對話和問答。

氦氣的主要特點：

自回歸 Transformer 架構：Moshi 基于 Helium，一種基于 Transformer 架構的文本語言模型。與經典的 Transformer 類似，Helium 使用多層注意力機制和自回歸建模方法來處理文本輸入并生成輸出。該模型有7B個參數，足以支持大規模語料庫的學習。

RMS歸一化：在注意力模塊、前饋模塊、輸出層使用RMS歸一化，提高模型的訓練穩定性。

旋轉位置編碼（RoPE）：用于處理較長的上下文窗口（4096 個令牌），以確保模型可以捕獲對話中的遠程依賴關系。

高效的 FlashAttention ：通過優化的注意力計算，長序列輸入下的模型推理更加高效。

3.Mimi神經音頻編解碼器

Mimi 是 Moshi 中用于語音處理的神經音頻編解碼器。它的任務是將連續的語音信號離散化為音頻標記。這些離散的音頻標記類似于文本標記，可以表示語音中的詳細信息。 Mimi采用殘差矢量量化（RVQ）技術，以較低的比特率保留高質量的音頻，支持實時語音生成和處理。

咪咪關鍵技術：

殘差矢量量化（RVQ）：Mimi使用多級殘差矢量量化將復雜的音頻信號離散化為多個級別的音頻令牌。這種方法允許每個時間步驟有效地編碼語音的語義和聲學信息，同時確保音頻重建的質量。

語義和聲學標記的組合：Mimi 使用的音頻標記包括語義和聲學信息。語義標記保留語音的內容（例如所說的特定單詞），而聲學標記則描述語音的音頻特征，例如音色、情感和語調。

流式編碼和解碼：Mimi支持流式傳輸，可以在實時對話中實現連續的語音生成和識別。這使得Moshi的反應速度非常接近自然對話。

4. RQ-Transformer的架構

Moshi 采用多流分層生成架構，可以并行處理多個音頻流。 Moshi 通過同時對用戶的語音流和系統自身的語音流進行建模，實現對話中的靈活交互，允許復雜的對話動態，例如說話者之間的交錯、中斷和感嘆詞。

這是先前提出的用于離散圖像生成的架構，并且可以在不增加 Helium 序列長度的情況下對語義和聲學標記的層次結構進行建模。這意味著每一秒的音頻只需要通過7B骨干模型12.5次，就可以在L4或M3 Macbook pro上實時運行！與 MusicGen 的令牌延遲相結合，這為音頻語言建模提供了最先進的性能。

分層自回歸建模：Moshi 使用 RQ-Transformer（Residual Quantizer Transformer）將音頻標記分解為多個級別，并通過分層自回歸建模生成音頻。具體來說，模型首先使用較大的 Temporal Transformer 來處理時間序列，然后使用較小的 Depth Transformer 在每個時間步處理多個子序列。這種設計大大提高了生成長音頻序列的效率。

多模態序列生成：模型同時生成多個序列（包括文本、語義標記和音頻標記），并通過內部獨白機制確保它們在時間上精確對齊。每個時間步生成的內容不僅包含當前語音，還包含相應的文本前綴，使得生成的語音內容在語義上更具邏輯性。

Architecture of RQ-Transformer

5、“內心獨白”機制

Moshi的“內心獨白”機制是其語音生成的關鍵創新之一。通過這種機制，Moshi 在生成音頻之前預測相應的時間對齊文本標記。這不僅提高了生成語音的語言一致性，還支持實時語音識別（ASR）和文本到語音（TTS）轉換。

“內心獨白”機制的特點：

對齊的文本和音頻生成：Moshi 首先預測文本，然后生成音頻，使生成的語音在語法和內容上更加準確和流暢。

延遲機制：通過在文本和音頻之間引入延遲，Moshi 可以分別執行 ASR 和 TTS 任務。例如，先生成文本，后生成音頻，則模型為TTS模式；否則，處于 ASR 模式。 Moshi 可以在這兩種模式之間無縫切換，確保模型既能生成又能識別語音。

Moshi: Delay mechanism

Moshi: TTS mode

6.多流建模

Moshi 的架構允許同時處理多個音頻流，既可以監控用戶的語音，也可以生成系統自己的語音。在對話過程中，Moshi 可以動態處理音頻的重疊部分（例如中斷、交錯），而無需提前明確劃分揚聲器輪流。這項技術使對話更加自然。

同步生成語義和聲音令牌：Moshi 使用并行語義和音頻令牌生成機制，并通過引入時間延遲來優化這些令牌之間的依賴關系。通過對用戶和系統的音頻流進行精確建模，Moshi能夠靈活應對復雜的對話場景。

雙流音頻處理：Moshi 同時處理用戶和系統語音流，并通過并行建模兩個自回歸音頻流來實現全雙工會話。這種設計使模型能夠應對自然對話中的重疊語音和中斷。

語義和音頻的延遲對齊：通過在語義標記和音頻標記之間引入延遲，確保生成的語音內容連貫且高效。延遲可能是 1 到 2 幀，具體取決于對話動態。

Moshi: Multi-stream modeling

7. 模型訓練與微調

大規模預訓練：Moshi 的文本語言模型（Helium）通過對超過 2.1 萬億個英文 token 的預訓練，擁有豐富的語言理解和生成能力。該模型經過大規模文本和語音數據的訓練，可以處理各種復雜的對話場景。

無監督和有監督多階段訓練：Moshi首先對大規模無監督語音數據進行預訓練，然后對包含自然對話的多流數據進行后訓練，最后進行指令微調，使其在實際對話中表現更好。

Helium預訓練：首先，在大規模文本數據集上預訓練Helium文本語言模型，以提高其語言理解和推理能力。

Moshi 預訓練：在未標記的音頻數據集上訓練多流音頻模型，以學習處理語音生成和語義理解。

多流微調：使用Fisher數據集（包含兩路語音對話數據）對模型進行微調，提高其處理多流語音輸入的能力。

指令微調：最后利用生成的指令對話數據進行微調，以增強模型在自然對話場景下的性能。

數據增強：在訓練過程中，Moshi使用了數據增強技術，例如添加背景噪聲、模擬用戶回聲等，使模型能夠在不同的語音環境下穩定表現，增強其魯棒性。

Moshi的性能評估

1. 語音生成的質量和一致性

語音清晰度：Moshi 在語音生成方面表現出色，實驗表明它可以生成高質量且易于理解的語音。它可以在生成過程中保持語音連貫性，尤其是在長對話中，這是復雜上下文中對話模型的重要性能指標。

語音的自然性和一致性：通過使用Mimi神經音頻編解碼器，Moshi可以生成高保真語音并保持系統語音的一致性。此外，該模型能夠根據不同的對話上下文生成適當的情緒語調，提高用戶體驗的自然度。

2. 實時響應性能

低延遲：Moshi的延遲理論上為160毫秒，實際測試約為200毫秒。這意味著Moshi可以近乎實時地響應用戶輸入，顯著提高交互的流暢度和用戶的對話體驗。

全雙工通信能力：Moshi在測試中展示了其同時接收和生成語音的能力。這種全雙工功能使其能夠處理重疊語音和對話中斷，顯示出接近自然人類對話的響應速度。

3. 語音識別和對話理解

自動語音識別（ASR）：通過內部獨白方法，Moshi 將文本和語音流結合起來，顯著提高語音識別的準確性。該模型不僅捕獲用戶的語音輸入，還通過首先生成文本預測來增強系統的響應準確性。

對話理解和推理能力：Moshi使用Helium語言模型進行文本理解和推理，這使得它在處理復雜問題、開放式對話和知識問答方面表現良好。實驗結果表明，Moshi 可以有效地理解上下文并提供合理的答案。

4. 多流語音處理的魯棒性

重疊語音處理：Moshi 能夠在評估中處理復雜的對話場景，例如多個語音流的重疊對話。這對于現實應用中的多任務處理非常重要，因為自然對話通常會涉及中斷和重疊語音。

多上下文對話處理：Moshi 在多個數據流上進行訓練，能夠在不同的對話場景中表現良好，無論是單個用戶的語音流還是同時與多個用戶的對話。

5. 問答和知識獲取

Moshi 在問答和知識獲取任務方面優于當前的其他語音對話系統。憑借強大的文本理解能力和實時語音生成能力，Moshi 可以處理多輪問答，準確提取并回復用戶問題。

語言推理和常識問答：該模型能夠處理復雜的推理任務，并且在自然語言處理（NLP）的各種標準評估中表現良好，例如常識問答、閱讀理解和開放式問答。

6.語音情感與個性化生成

情感語音生成：Moshi 在評估中展示了其生成情感語音的能力。它能夠根據對話的上下文生成具有不同情緒的語音輸出，例如憤怒、快樂或悲傷。

個性化語音風格：通過訓練過程中的指令微調，Moshi可以根據用戶需求生成不同風格或特定角色的語音。這種個性化的能力使其在特定的對話場景下表現更加多樣化。

7、安全可靠

安全對話評估：Moshi 在處理包含敏感或不適當內容的對話時表現出良好的安全性。它能夠有效識別并避免生成不當內容，確保對話的安全性和道德性。

魯棒性和對噪聲環境的適應：在噪聲和復雜環境的評估中，Moshi表現出了良好的魯棒性。通過數據增強技術（例如噪聲添加和回聲處理），該模型能夠應對不同的語音環境，并保證在噪聲環境下的高質量輸出。

八、綜合測試結果

Moshi的綜合性能測試表明，其在語音生成、對話理解、實時響應、復雜對話處理等方面取得了領先的成績。尤其是，Moshi 在處理重疊對話、語音中斷、情感產生等方面的表現遠遠超過傳統對話系統。

技術報告： https://kyutai.org/Moshi.pdf

GitHub： https://github.com/kyutai-labs/moshi

模型下載： https ://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

在線嘗試： https://moshi.chat/

相關資訊：

MoshiVis：一款能聽還能看，并用流暢的語音跟你討論圖像內容的視覺語音模型

睿聲Reecho

PDF2Audio

與Moshi相關工具

PengChengStarling

鵬城實驗室開源的一款多語言語音識別系統開發工具包，PengChengStarling可以在統一的框架內處理多種語言語音輸...

Krisp.ai

Krisp.ai是一個噪音消除的音頻處理工具。可以幫助用戶消除背景噪音和回聲，提高語音通話的質量，還能利用AI將消除你的...

Whisper語音識別模型

Whisper 是一種通用的語音識別模型。它在不同音頻的大型數據集上進行訓練，也是一個多任務模型，可以執行多語言語音識別...

場辭-AI視頻字幕制作軟件

場辭,AI視頻字幕制作軟件，一款基于語音識別技術的視頻字幕制作軟件，一鍵智能識別字幕，提供語音轉字幕、一鍵加字幕、視頻加...

星火紀要

科大訊飛推出的一款基于先進語音識別技術和大模型的會議交流總結和分析平臺，具有高效轉錄、智能總結、翻譯、數據分析等功能。

Lyrics Into Song AI

一個利用AI將文本歌詞轉換為原創歌曲的在線音樂平臺，Lyrics Into Song AI通過分析您的文本，并生成與您的...

我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Moshi

Moshi簡介

與Moshi相關工具

最新工具