我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Ai應用
Ai資訊
AI生圖
AI生視頻
開源AI應用平臺

首頁 > Ai資訊 > Ai產品

Dolphin：海天瑞聲與清華大學聯合發布的一款面向東方語種的自動語音識別模型

Dolphin于2025-04-02發布在Ai產品

Dolphin 是什么？

Dolphin是一款由海天瑞聲與清華大學電子工程系語音與音頻技術實驗室聯合開發的專為東方語言設計的自動語音識別模型。Dolphin支持40種東方語言和22種中國方言。具有高準確率和強魯棒性，能夠適應多種復雜語音環境。Dolphin廣泛應用于語音轉文字、語音交互和語音內容分析等場景，支持一鍵安裝和多種調用方式。

Dolphin 模型特點

多語種支持：Dolphin 支持 40 種東方語言，包括東亞、南亞、東南亞和中東地區的語言，還支持 22 種中國方言（含普通話）。
語言自適應：自動識別輸入語音的語言種類，無需手動指定。
高準確率：在多個測試集上，詞錯誤率（WER）顯著低于同類模型。
強魯棒性：適應不同口音、語速、背景噪聲等復雜語音環境。
高性能表現：在海天瑞聲、Fleurs、CommonVoice 三個測試集下，與 Whisper 同等尺寸模型相比，Dolphin 的詞錯誤率（WER）顯著降低。例如，base 版本平均 WER 降低 63.1%，small 版本平均 WER 降低 68.2%。
開源性：Dolphin 的 base 和 small 版本模型與推理代碼已全面開源。

Dolphin 技術架構

網絡結構：基于 CTC-Attention 架構，采用 E-Branchformer 編碼器和 Transformer 解碼器，并引入了 4 倍下采樣層。這種結構結合了 CTC 的序列建模能力和注意力機制的上下文捕捉能力，能夠有效提升模型的識別準確性和效率。
多任務格式：Dolphin 借鑒了 Whisper 和 OWSM 的設計方法，專注于 ASR 進行了若干關鍵修改，如去掉 previous text 及其相關標記的使用，簡化了輸入格式。此外，Dolphin 引入了兩級語種標簽系統，以更好地處理語言和地區的多樣性。

Dolphin 技術架構.webp

數據基礎

Dolphin 的訓練數據集整合了海天瑞聲的專有數據和多個開源數據集，總時長超過 21.2 萬小時。其中，海天瑞聲數據集包含 137,712 小時的音頻，覆蓋 38 個東方語種。

應用場景

語音轉文字：適用于會議記錄、語音輸入法等場景。
語音交互：用于ai智能語音助手、智能家居等，提升交互體驗。
語音內容分析：快速轉寫和分析語音媒體內容。

Dolphin 使用教程

安裝：用戶可以通過命令 pip install -U dataoceanai-dolphin 一鍵安裝。
命令行調用：例如，使用 dolphin audio.wav 進行語音識別，還可以指定模型版本、語言和地區的標簽。
Python 調用：通過導入 dolphin 模塊，加載音頻和模型，即可進行語音識別。

相關鏈接

Github地址：https://github.com/DataoceanAI/Dolphin

項目主頁：https://huggingface.co/DataoceanAI

收藏

WeChatAssistant：微信智能助手插件系統

上一篇

WeChatAssistant：微信智能助手插件系統

DSO：牛津大學公布的符合物理規律的3D模型優化框架項目

下一篇

DSO：牛津大學公布的符合物理規律的3D模型優化框架項目

相關文章

Voila：一款開源的端到端AI語音模型

Voila：一款開源的端到端AI語音模型

2025-05-07

MoshiVis：一款能聽還能看，并用流暢的語音跟你

MoshiVis：一款能聽還能看，并用流暢的語音跟你

2025-03-26

OpenAI語音模型GPT-4o-transcrib

OpenAI語音模型GPT-4o-transcrib

2025-03-21

OpenAI 發布了三款全新語音模型，包括兩款語音轉

OpenAI 發布了三款全新語音模型，包括兩款語音轉

2025-03-21

CSM：Sesame公司的語音合成模型，如同與真人交

CSM：Sesame公司的語音合成模型，如同與真人交

2025-03-02

OSUM：西北工業大學開源的一個語音模型,可支持多種

OSUM：西北工業大學開源的一個語音模型,可支持多種

2025-02-21

最新文章

最新工具

Custom Cursor

一個能讓你擁有個性化光標的網站。Custom Cursor網站有...

橙子8設計

一站式AI電商圖片制作平臺，專為電商和跨境賣家服務。不用專業設計...

Sandspiel

一款基于細胞自動機和實時物理的開源像素沙盤游戲，玩家可以在虛擬沙...

印象地圖

這是個可以幫你記住全國省市位置的測試工具。打開網站就能用，選個模...

Sandtris

一款把經典俄羅斯方塊和流沙物理效果結合的休閑游戲。玩家需要利用沙...

Maze Toys

一個以迷宮游戲為主的網站，提供多種類型的迷宮玩法，包括Mini、...

AiPyApp

一款以Python為核心的開源新人工智能體助手，結合大模型和 P...

Adobe Express

Adobe推出的一站式設計工具，整合了圖像、視頻、文檔/PDF、...

Intangible AI

創意行業空間智能AI平臺，通過簡潔的3D界面與空間智能技術解決A...

法大大iTerms

法大大推出的一站式法律AI工作臺，基于自研法律大模型的AI智能體...

人生若只如初見

用戶登錄

主站蜘蛛池模板：布拖县| 苏尼特左旗| 太白县| 洪洞县| 田林县| 延川县| 楚雄市| 逊克县| 堆龙德庆县| 阳原县| 伊金霍洛旗| 砚山县| 建瓯市| 宣化县| 武陟县| 上饶县| 黎川县| 南和县| 博客| 都匀市| 临桂县| 喜德县| 翼城县| 信阳市| 禄丰县| 历史| 诏安县| 丰都县| 汉中市| 巴中市| 托里县| 柳林县| 同仁县| 马公市| 德钦县| 武鸣县| 大洼县| 波密县| 青冈县| 桃园县| 昌图县|