WhisperChain:實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄工具,可把口語(yǔ)化的表達(dá)變得更正式
WhisperChain是什么?
WhisperChain 是一款自帶潤(rùn)色功能的實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄工具,特別適合會(huì)議記錄、寫(xiě)語(yǔ)音筆記等場(chǎng)景。它能自動(dòng)清理口頭禪,把口語(yǔ)化的表達(dá)變得更正式、簡(jiǎn)潔,同時(shí)保留核心意思。
比如,你說(shuō)“這個(gè)東西賣得特別好,賺了不少錢,客戶都說(shuō)好……”,它會(huì)轉(zhuǎn)錄成“該產(chǎn)品市場(chǎng)表現(xiàn)優(yōu)異,創(chuàng)造了可觀的營(yíng)收,獲得了客戶的普遍好評(píng)”。
處理好的內(nèi)容會(huì)直接存到剪貼板,隨時(shí)能用,很方便。
WhisperChain功能特點(diǎn)
實(shí)時(shí)語(yǔ)音識(shí)別:WhisperChain 使用 Whisper.cpp 實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音識(shí)別,能夠將語(yǔ)音內(nèi)容即時(shí)轉(zhuǎn)換為文本。
轉(zhuǎn)錄清理:通過(guò) LangChain 對(duì)轉(zhuǎn)錄后的文本進(jìn)行清理,提高文本的可讀性和準(zhǔn)確性。
全局熱鍵支持:用戶可以通過(guò)全局熱鍵(默認(rèn)為
自動(dòng)剪貼板集成:轉(zhuǎn)錄結(jié)果會(huì)自動(dòng)保存到剪貼板,用戶可以隨時(shí)隨地粘貼使用。
WhisperChain項(xiàng)目架構(gòu)
WhisperChain 的架構(gòu)包括客戶端選項(xiàng)(如熱鍵監(jiān)聽(tīng)、音頻流、剪貼板集成)、Web UI(Streamlit)以及后端服務(wù)(FastAPI)。音頻流通過(guò) WebSocket 傳輸?shù)胶蠖耍?jīng)過(guò) Whisper 模型識(shí)別和 LangChain 處理后,最終將清理后的文本輸出。
WhisperChain應(yīng)用場(chǎng)景
會(huì)議與講座:在開(kāi)會(huì)或聽(tīng)講座時(shí),實(shí)時(shí)把說(shuō)話內(nèi)容轉(zhuǎn)成文字,方便做記錄。
語(yǔ)音助手:讓語(yǔ)音助手更準(zhǔn)確地聽(tīng)懂指令,提升使用體驗(yàn)。
醫(yī)療記錄:醫(yī)生和護(hù)士可以用語(yǔ)音輸入患者信息,節(jié)省時(shí)間,提高效率。
客服支持:把客戶的語(yǔ)音咨詢轉(zhuǎn)成文字,方便客服快速回復(fù),服務(wù)更精準(zhǔn)。
安裝與配置
系統(tǒng)要求:需要 Python 3.8+ 和 OpenAI API 密鑰。對(duì)于 MacOS,還需要安裝 ffmpeg 和 portaudio。
安裝方法:通過(guò) pip 安裝 WhisperChain:
pip install whisperchain
配置:首次運(yùn)行時(shí),系統(tǒng)會(huì)提示輸入 OpenAI API 密鑰,并將其保存在 ~/.whisperchain/.env 文件中。
使用方法
啟動(dòng)應(yīng)用程序:
whisperchain
或通過(guò)自定義配置文件啟動(dòng):
whisperchain --config config.json
使用全局熱鍵開(kāi)始錄音,說(shuō)話后釋放熱鍵,轉(zhuǎn)錄結(jié)果將自動(dòng)復(fù)制到剪貼板。
GitHub倉(cāng)庫(kù):https://github.com/chrischoy/WhisperChain