首頁 > Ai資訊 > Ai產品

SpeakerKit：可以快速、高效地識別音頻中的不同說話人

映技派于2025-03-08發布在Ai產品

SpeakerKit是什么？

SpeakerKit 是 Argmax 公司開發的一種設備端說話人識別（Diarization）工具，可以快速、高效地識別音頻中的不同說話人。它與 WhisperKit（一種音頻轉錄工具）配合使用，能夠生成帶有說話人標簽的轉錄文本。適用于需要快速、準確識別音頻中說話人的應用場景。

SpeakerKit：可以快速、高效地識別音頻中的不同說話人.jpg

SpeakerKit主要特點

速度：

在 iPhone 上處理 4 分鐘音頻時，SpeakerKit 僅需約 1 秒完成說話人識別，速度遠超其他同類系統。
與 WhisperKit 結合使用時，轉錄和識別的總時間僅需 25 秒。

質量：

SpeakerKit 的錯誤率與行業領先的系統（如 Pyannote）相當，盡管其速度提升了數倍。

體積：

總大小約為 10MB，便于集成到應用程序中或快速下載。

兼容性：

支持 iOS 16 和 macOS 13 及更高版本的設備。
Android 支持正在開發中。

模塊化：

SpeakerKit 可與 WhisperKit 配合使用，生成帶有說話人標簽的轉錄文本，也可以與其他轉錄引擎集成，提供了比服務器端 API 更高的靈活性。

SpeakerKit：可以快速、高效地識別音頻中的不同說話人.webp

基準測試

Argmax 開發了一個名為 SDBench 的 Python 工具包，用于在 13 個廣泛使用的數據集上標準化地測試說話人識別系統的性能。SDBench 的代碼將開源，相關論文將于 2025 年 4 月發布。

未來規劃

優化轉錄質量：目前SpeakerKit 的獨立說話人識別質量已達到行業領先水平（通過 DER 測量）。下一步，團隊將優化與 WhisperKit 的聯合使用，以提升帶有說話人標簽的轉錄質量（通過 WDER 測量）。

說話人識別功能：SpeakerKit 將推出一項新功能，能夠提取說話人的聲紋，并在新的上下文中識別他們。

詳細閱讀：https://www.argmaxinc.com/blog/speakerkit

HuggingFace：https://huggingface.co/argmaxinc/speakerkit-pro

#人聲分離軟件

Local-NotebookLM：開源的本地版NotebookLM，能夠將PDF轉換為播客

Easydict：一個簡潔優雅、開源的macOS詞典翻譯應用

最新工具

VoiceNovel

一個通過AI把小說變成有聲內容的在線平臺，它把用戶上傳的小說轉成...

SchedPilot

個人和團隊用的社交媒體內容調度管理工具，用AI技術實現多平臺發內...

MultiPost

一款免費開源的瀏覽器擴展，能將文本、圖片、視頻等內容一鍵分發到 ...

AI快研俠

一個專注用AI幫用戶高效完成研究工作的產品，AI快研俠圍繞“研究...

GameCreator

Catsoft Studios開發的游戲引擎，兼顧專業和愛好者需...

GirlsGoGames

簡稱GGG，是一個特別受女孩歡迎的在線免費游戲平臺。它提供各種有...

SweetyGame

一個專門做給女孩子玩的小游戲網站，主要以可愛、時尚、名人元素為...

eSearch

一款開源跨平臺工具，能截屏、OCR 識別、搜索、翻譯、貼圖、以圖...

打字俠

一個在線中文打字練習平臺，主要幫用戶提升打字速度和準確度，覆蓋從...

Fable Prism

Fable Prism 是在線動效設計平臺 Fable 推出的A...

用戶登錄

我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院