SpeakerKit:可以快速、高效地識別音頻中的不同說話人
SpeakerKit是什么?
SpeakerKit 是 Argmax 公司開發的一種 設備端說話人識別(Diarization)工具,可以快速、高效地識別音頻中的不同說話人。它與 WhisperKit(一種音頻轉錄工具)配合使用,能夠生成帶有說話人標簽的轉錄文本。適用于需要快速、準確識別音頻中說話人的應用場景。
SpeakerKit主要特點
速度:
在 iPhone 上處理 4 分鐘音頻時,SpeakerKit 僅需 約 1 秒 完成說話人識別,速度遠超其他同類系統。
與 WhisperKit 結合使用時,轉錄和識別的總時間僅需 25 秒。
質量:
SpeakerKit 的錯誤率與行業領先的系統(如 Pyannote)相當,盡管其速度提升了數倍。
體積:
總大小約為 10MB,便于集成到應用程序中或快速下載。
兼容性:
支持 iOS 16 和 macOS 13 及更高版本的設備。
Android 支持正在開發中。
模塊化:
SpeakerKit 可與 WhisperKit 配合使用,生成帶有說話人標簽的轉錄文本,也可以與其他轉錄引擎集成,提供了比服務器端 API 更高的靈活性。
基準測試
Argmax 開發了一個名為 SDBench 的 Python 工具包,用于在 13 個廣泛使用的數據集上標準化地測試說話人識別系統的性能。SDBench 的代碼將開源,相關論文將于 2025 年 4 月發布。
未來規劃
優化轉錄質量:目前SpeakerKit 的獨立說話人識別質量已達到行業領先水平(通過 DER 測量)。下一步,團隊將優化與 WhisperKit 的聯合使用,以提升帶有說話人標簽的轉錄質量(通過 WDER 測量)。
說話人識別功能:SpeakerKit 將推出一項新功能,能夠提取說話人的聲紋,并在新的上下文中識別他們。
詳細閱讀:https://www.argmaxinc.com/blog/speakerkit
HuggingFace:https://huggingface.co/argmaxinc/speakerkit-pro
相關文章
- 用戶登錄