WhisperChain:實時語音轉錄工具,可把口語化的表達變得更正式
WhisperChain是什么?
WhisperChain 是一款自帶潤色功能的實時語音轉錄工具,特別適合會議記錄、寫語音筆記等場景。它能自動清理口頭禪,把口語化的表達變得更正式、簡潔,同時保留核心意思。
比如,你說“這個東西賣得特別好,賺了不少錢,客戶都說好……”,它會轉錄成“該產品市場表現優異,創造了可觀的營收,獲得了客戶的普遍好評”。
處理好的內容會直接存到剪貼板,隨時能用,很方便。
WhisperChain功能特點
實時語音識別:WhisperChain 使用 Whisper.cpp 實現實時語音識別,能夠將語音內容即時轉換為文本。
轉錄清理:通過 LangChain 對轉錄后的文本進行清理,提高文本的可讀性和準確性。
全局熱鍵支持:用戶可以通過全局熱鍵(默認為
自動剪貼板集成:轉錄結果會自動保存到剪貼板,用戶可以隨時隨地粘貼使用。
WhisperChain項目架構
WhisperChain 的架構包括客戶端選項(如熱鍵監聽、音頻流、剪貼板集成)、Web UI(Streamlit)以及后端服務(FastAPI)。音頻流通過 WebSocket 傳輸到后端,經過 Whisper 模型識別和 LangChain 處理后,最終將清理后的文本輸出。
WhisperChain應用場景
會議與講座:在開會或聽講座時,實時把說話內容轉成文字,方便做記錄。
語音助手:讓語音助手更準確地聽懂指令,提升使用體驗。
醫療記錄:醫生和護士可以用語音輸入患者信息,節省時間,提高效率。
客服支持:把客戶的語音咨詢轉成文字,方便客服快速回復,服務更精準。
安裝與配置
系統要求:需要 Python 3.8+ 和 OpenAI API 密鑰。對于 MacOS,還需要安裝 ffmpeg 和 portaudio。
安裝方法:通過 pip 安裝 WhisperChain:
pip install whisperchain
配置:首次運行時,系統會提示輸入 OpenAI API 密鑰,并將其保存在 ~/.whisperchain/.env 文件中。
使用方法
啟動應用程序:
whisperchain
或通過自定義配置文件啟動:
whisperchain --config config.json
使用全局熱鍵開始錄音,說話后釋放熱鍵,轉錄結果將自動復制到剪貼板。
GitHub倉庫:https://github.com/chrischoy/WhisperChain