Open-LLM-VTuber:一個開源的具有手勢和語音交互功能的AI虛擬形象
Open-LLM-VTuber是什么?
Open-LLM-VTuber是一個開源的語音交互式 ai 虛擬形象,支持實時語音對話、視覺感知以及 Live2D 動畫形象,并且可以完全離線運行。它支持 Windows、macOS 和 Linux 系統,并提供了豐富的功能和高度的可定制性。
Open-LLM-VTuber功能亮點
跨平臺支持:支持 Windows、macOS 和 Linux 系統,適配英偉達和非英偉達 GPU,支持 CPU 運行或云 API 調用。
離線模式:完全離線運行,使用本地模型,確保隱私安全。
實時語音對話:支持免提語音交互,用戶可以通過語音與虛擬主播進行自然流暢的交流。
視覺感知:能夠捕捉用戶的面部表情變化以及環境中的光線、色彩等動態信息。虛擬主播會根據感知數據作出動態反應,例如用戶微笑時,虛擬主播也會回以笑容。
Live2D 虛擬形象: 使用 Live2D 技術,虛擬主播的表情和動作極為逼真,從細微的眨眼、挑眉到肢體擺動都栩栩如生。
長期記憶:輕松回顧過往對話,內置 Mem0、EVI 等多種記憶模塊,還能通過簡單接口快速接入自定義記憶系統。
高級交互功能:
支持視覺感知(攝像頭、屏幕錄制和截圖)。
語音打斷功能(無需耳機,AI 不會聽到自己的聲音)。
觸摸反饋和 Live2D 表情支持。
寵物模式(透明背景、全局置頂、鼠標穿透)。
AI 主動說話、內心 OS 顯示和聊天記錄持久化。
廣泛的模型支持:
大語言模型(LLM):支持 Ollama、OpenAI、Gemini、Claude 等。
語音識別(ASR):支持 sherpa-onnx、FunASR、Whisper 等。
語音合成(TTS):支持 MeloTTS、Coqui-TTS、Edge TTS 等。
高度可定制:
支持導入自定義 Live2D 模型、修改 Prompt 和音色克隆。
模塊化設計,通過簡單的配置文件修改來切換各種功能模塊。
Agent自由實現:繼承并實現 Agent 接口,接入任何架構的 Agent,如 HumeAI EVI、OpenAI Her、Mem0 等。
Open-LLM-VTuber應用場景
直播互動:可以通過自定義虛擬主播形象用于娛樂直播,吸引觀眾并提供互動體驗。
虛擬助手:作為個人虛擬助手,提供信息查詢、日程管理等功能。
聊天伴侶:用戶可以根據自己的需求打造專屬的虛擬伴侶,如虛擬女友、男友或寵物。
創意內容創作:用于制作個性化視頻、動畫等。
Open-LLM-VTuber使用方法
1. 本地部署:
克隆項目代碼并安裝依賴。
配置 conf.yaml 文件,選擇所需的 LLM、ASR 和 TTS 模型。
使用命令行工具(如 uv)運行項目。
2. 更新與卸載:
使用 uv run update.py 進行更新。
卸載時需清理項目文件夾及可能的緩存路徑。
3. 客戶端使用:
提供網頁版和桌面客戶端,支持窗口模式和桌寵模式。
支持多語言對話和 TTS 翻譯。
Open-LLM-VTuber實現技術
語音識別(ASR):支持多種開源和商業 ASR 引擎。
大語言模型(LLM):支持多種主流 LLM,推理后端可靈活切換。
語音合成(TTS):支持多種 TTS 技術,提供個性化語音合成。
Live2D 集成:使用 Live2D SDK 實現虛擬形象的動態渲染。
模塊化設計:支持自定義模塊擴展,方便開發者集成新的功能。
項目官網:https://docs.llmvtuber.com/
GitHub倉庫地址:https://github.com/Open-LLM-VTuber/Open-LLM-VTuber