
Voicebox
Voicebox簡介
Voicebox,Meta ai開發的一種先進的生成式AI語音模型,可以執行語音生成任務,例如編輯、采樣和風格化,但它并沒有經過專門訓練來通過上下文學習來完成這些任務。
Voicebox可以生成高質量的音頻剪輯并編輯預先錄制的音頻(例如消除汽車喇叭或狗吠聲),同時保留音頻的內容和風格。該模型也是多語言的,可以產生六種語言的語音。
Voicebox功能特征:
Voicebox 的多功能性可實現多種任務,包括:
上下文文本到語音合成:使用短至兩秒的音頻樣本,Voicebox 可以匹配音頻風格并將其用于文本到語音生成。
語音編輯和降噪:Voicebox 可以重新創建被噪音打斷的語音部分或替換說錯的單詞,而無需重新錄制整個語音。例如,您可以識別被狗吠打斷的語音片段,將其裁剪,然后指示 Voicebox 重新生成該片段 - 就像用于音頻編輯的橡皮擦一樣。
跨語言風格遷移:當給定某人的語音樣本和一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語文本時,Voicebox 可以讀出任何這些語言的文本,即使樣本語音并且文本是不同語言的。這項功能將來可以用來幫助人們以自然、真實的方式進行交流,即使他們說的語言不同。
多樣化的語音采樣:從多樣化的數據中學習后,Voicebox 可以生成更能代表人們在現實世界中以及上述六種語言中交談方式的語音。
Voicebox優點:
先進的噪音消除和風格轉換工具可提高音頻質量和多功能性。
對50,000+小時語音數據的廣泛訓練確保了聲音的高精度和自然聽起來。
使用六種不同語言的能力使其成為全球應用和跨語言任務的理想選擇。
Voicebox缺點:
由于潛在的濫用而導致的可用性有限可能會限制合法用戶和開發人員的訪問。
未來,像 Voicebox 這樣的多用途生成人工智能模型可以為虛擬助手和虛擬宇宙中的非玩家角色提供自然的聲音。它們可以讓視障人士聽到人工智能用聲音朗讀朋友的書面信息,為創作者提供新工具來輕松創建和編輯視頻音軌等等。
Voicebox 是我們生成式人工智能研究向前邁出的重要一步,我們期待繼續在音頻領域進行探索,并看看其他研究人員如何在我們的工作基礎上繼續發展。