首頁(yè) > Ai導(dǎo)航 > Ai工具箱 > Ai開源項(xiàng)目

WhisperFusion

一個(gè)基于WhisperLive把聲音轉(zhuǎn)文字和WhisperSpeech理解這些文字的能力構(gòu)建。能夠與AI聊天機(jī)器人進(jìn)行超低延遲對(duì)話。

#Ai工具箱 #Ai開源項(xiàng)目

WhisperFusion簡(jiǎn)介

WhisperFusion 建立在開源工具 WhisperLive 和 WhisperSpeech 的功能之上。WhisperFusion可以讓你和ai聊天機(jī)器人進(jìn)行超低延遲對(duì)話，同時(shí)它還整合了Mistral模型，增強(qiáng)對(duì)轉(zhuǎn)錄文本上下文的理解。使得WhisperFusion能更好地理解人說的每句話背后的意思。

WhisperFusion 的主要功能：

1、實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本：利用 OpenAI WhisperLive 進(jìn)行轉(zhuǎn)換將口語(yǔ)實(shí)時(shí)轉(zhuǎn)換為文本，方便進(jìn)行后續(xù)的處理和回應(yīng)。

2、整合大語(yǔ)言模型：通過加入 Mistral 這樣的大語(yǔ)言模型，WhisperFusion 能夠更好地理解轉(zhuǎn)換成文字的語(yǔ)音內(nèi)容，提高回應(yīng)的準(zhǔn)確性和相關(guān)性。

3、性能優(yōu)化：使用 TensorRT 技術(shù)對(duì)語(yǔ)言模型和 Whisper 進(jìn)行了優(yōu)化，確保了快速、高效的處理能力，特別是在實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本的應(yīng)用中。

4、推理加速：利用 torch.compile 對(duì) WhisperSpeech 進(jìn)行優(yōu)化，通過即時(shí)編譯（JIT）PyTorch 代碼，進(jìn)一步加快了處理速度，減少了延遲。

5、易于使用：提供預(yù)構(gòu)建的 Docker 容器，包含了所有必要的組件和模型，用戶可以很容易地開始使用 WhisperFusion，體驗(yàn)其功能。

了解WhisperLive和WhisperSpeech：

WhisperLive 是 OpenAI 的 Whisper 的一個(gè)實(shí)時(shí)轉(zhuǎn)錄應(yīng)用程序，它使用 OpenAI Whisper 模型將語(yǔ)音輸入轉(zhuǎn)換為文本輸出。它可用于轉(zhuǎn)錄來自麥克風(fēng)的實(shí)時(shí)音頻輸入和預(yù)先錄制的音頻文件。與依賴連續(xù)音頻流的傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)不同，我們使用語(yǔ)音活動(dòng)檢測(cè) （VAD）來檢測(cè)語(yǔ)音的存在，并且僅在檢測(cè)到語(yǔ)音時(shí)才將音頻數(shù)據(jù)發(fā)送到 Whisper。這有助于減少發(fā)送到 Whisper 模型的數(shù)據(jù)量，并提高轉(zhuǎn)錄輸出的準(zhǔn)確性。查看我們的轉(zhuǎn)錄帖子和 WhisperLive 存儲(chǔ)庫(kù)了解更多詳情。

WhisperSpeech 是開源文本轉(zhuǎn)語(yǔ)音技術(shù)領(lǐng)域的重大進(jìn)步。該模型由 Collabora 開發(fā)，其重點(diǎn)是提供聽起來自然的語(yǔ)音以改善溝通。其目的是創(chuàng)建一個(gè)具有多語(yǔ)言功能的適應(yīng)性強(qiáng)且無縫集成的 TTS 模型。

WhisperFusion通過使用 WhisperLive 和 WhisperSpeech 的快速處理能力以及低延遲的通信實(shí)現(xiàn)，您可以實(shí)現(xiàn)實(shí)時(shí)、高效、智能的通信。這種適應(yīng)性可確保您的模式在業(yè)務(wù)擴(kuò)展時(shí)保持領(lǐng)先一步，同時(shí)滿足客戶的需求，這是提供一流服務(wù)的標(biāo)志。

Audio2Face

StreamRAG