
Linly-Dubbing
Linly-Dubbing簡介
Linly-Dubbing是一款開源的多語言ai配音和視頻翻譯工具。Linly-Dubbing可以自動將視頻翻譯成其他語言并生成字幕、克隆視頻中說話者的聲音并自動配音、進行口型同步。
Linly-Dubbing主要特征:
自動下載視頻:支持從YouTube等網站下載視頻
多語言支持:支持中文和多種語言的配音和字幕翻譯。
AI語音識別:準確的語音識別、語音文本轉換和說話人識別。
LLM翻譯:結合領先的大型語言模型(如GPT),可以快速準確地翻譯,保證翻譯的專業性和自然性。
語音克隆:通過語音克隆技術,生成與原視頻配音高度相似的聲音,保持情感和語氣的一致性。
口型同步:通過保持口型同步,配音可以與視頻畫面高度一致,提高視頻的真實性和互動性。
靈活的上傳和翻譯:用戶可以上傳視頻并選擇翻譯語言和標準,以確保個性化和靈活性。
Linly-Dubbing技術細節
語音識別
WhisperX :OpenAI Whisper語音識別系統的擴展,可以將語音內容轉錄為文本,與視頻幀精確對齊,生成帶時間戳的字幕文件,并支持多說話人識別。
FunASR :一款綜合語音識別工具包,提供語音識別、語音活動檢測、標點符號恢復等功能,特別針對中文語音進行了優化。
語音合成
集成了Edge TTS、XTTS、CosyVoice等多種先進的語音合成工具。
Edge TTS :微軟提供的高質量文本到語音轉換服務,支持多種語言和語音風格,生成自然流暢的語音輸出。
XTTS :Coqui 提供的先進的深度學習文本轉語音工具包,專注于語音克隆和多語言語音合成,可以通過短音頻片段實現語音克隆并生成逼真的語音輸出。
CosyVoice :阿里巴巴同義實驗室開發的多語言語音理解與合成模型,支持多種語言的高質量語音合成和跨語言語音克隆。
字幕翻譯
使用OpenAI API和Qwen模型進行多語言字幕翻譯。
OpenAI API :使用OpenAI的GPT-4和GPT-3.5-turbo進行高質量的字幕翻譯。這些模型以其自然語言理解和文本生成能力而聞名,適用于對話生成和文本分析。
Qwen :開源的本地化大規模語言模型,支持多語言翻譯,可以經濟高效地處理多種語言的文本。
谷歌翻譯:集成谷歌翻譯作為翻譯功能的補充,提供廣泛的語言支持和良好的翻譯質量。
聲音分離
使用 Demucs 和 UVR5 技術將人聲與伴奏分開。
|Demucs :Facebook 研究團隊開發的聲音分離模型,可以分離混合音頻中的不同聲源,包括樂器、人聲和背景聲音。廣泛應用于音樂制作和影視后期制作。
UVR5(Ultimate Vocal Remover) :一款高效的人聲伴奏分離工具,可以提取接近原始立體聲的伴奏,性能優于其他類似工具如RX9、RipX和SpectraLayers 9。
口型同步
借鑒Linly-Talker,我們專注于數字人唇同步技術,結合計算機視覺和語音識別技術,將虛擬角色的唇同步與配音精確匹配,達到高度自然的同步效果。該技術適用于動畫人物、虛擬主播、教育視頻中的旁白等多種場景。
視頻處理
Linly-Dubbing提供添加字幕、插入背景音樂、調節音量和播放速度等功能,用戶可以自定義視頻內容,使其更具吸引力和個性化。
yt-dlp 的集成: yt-dlp 是一個功能強大的開源命令行工具,設計用于從 YouTube 和其他網站下載視頻和音頻。該工具具有廣泛的參數選項,允許用戶根據自己的需要微調下載行為。無論是選擇特定格式、分辨率,還是提取音頻,yt-dlp 都提供了靈活的解決方案。