OpenVoice
OpenVoice簡介
OpenVoice,一種多功能的即時語音克隆方法,只需要參考說話者的一小段音頻剪輯即可復制他們的聲音并生成多種語言的語音。OpenVoice 支持對語音風格進行精細控制,包括情感、口音、節奏、停頓和語調,以及復制參考揚聲器的音調顏色。OpenVoice 還實現了零樣本跨語言語音克隆,適用于未包含在大規模說話人訓練集中的語言。OpenVoice 的計算效率也很高,其成本比性能較差的商用 API 低數十倍。
OpenVoice論文:https://arxiv.org/pdf/2312.01479.pdf
OpenVoice項目:https://github.com/myshell-ai/OpenVoice
OpenVoice特征:
準確的色調顏色克隆。OpenVoice可以準確克隆參考音色,生成多種語言和口音的語音。
靈活的語音風格控制。OpenVoice 支持對語音風格(如情感和口音)以及其他風格參數(包括節奏、停頓和語調)進行精細控制。
零樣本跨語言語音克隆。生成的語音的語言和參考語音的語言都不需要在大規模說話人多語言訓練數據集中呈現。
OpenVoice用法:
1.靈活的語音風格控制。請參閱 demo_part1.ipynb,了解 OpenVoice 如何對克隆的語音實現靈活的樣式控制的示例用法。
2.跨語言語音克隆。請參閱 demo_part2.ipynb,了解 MSML 訓練集中可見或未可見的語言示例。
3. 高級用法。基本揚聲器型號可以替換為用戶喜歡的任何型號(任何語言和風格)。請使用演示中演示的功能來提取新基座揚聲器的音色嵌入。se_extractor.get_se
4. 生成自然語音的技巧。有許多單說話人或多說話人的 TTS 方法可以生成自然語音,并且很容易獲得。只需將基本揚聲器型號替換為您喜歡的型號,您就可以將語音自然度提升到您想要的水平。
語言
我們只支持此版本模型重量的英文和中文。OpenVoice 可以適應任何其他語言,只要提供基礎揚聲器即可。
自 2023 年 5 月以來,OpenVoice 一直在為 myshell.ai 的即時語音克隆功能提供支持。截止到2023年11月,語音克隆模式已被全球用戶使用數千萬次,見證了平臺用戶爆發式增長。