OpenAI語(yǔ)音模型GPT-4o-transcribe、GPT-4o-mini-transcribe和GPT-4o-mini-tts的特點(diǎn)、定價(jià)和使用場(chǎng)景
Openai推出了新一代語(yǔ)音模型,為開(kāi)發(fā)者提供更強(qiáng)大的語(yǔ)音交互能力,并支持語(yǔ)音智能體的開(kāi)發(fā)。這些模型包括兩款語(yǔ)音轉(zhuǎn)文本模型(gpt-4o-transcribe和gpt-4o-mini-transcribe)以及一款文本轉(zhuǎn)語(yǔ)音模型(gpt-4o-mini-tts)。它們分別有什么特點(diǎn)呢?
1. GPT-4o-transcribe(語(yǔ)音轉(zhuǎn)文本模型)
特點(diǎn):
高精度轉(zhuǎn)錄:經(jīng)過(guò)大量多樣化、高質(zhì)量音頻數(shù)據(jù)集的長(zhǎng)時(shí)間訓(xùn)練,能夠更好地捕捉語(yǔ)音的細(xì)微差別,減少誤識(shí)別,大幅提升轉(zhuǎn)錄可靠性。
適應(yīng)復(fù)雜場(chǎng)景:對(duì)口音、語(yǔ)速、環(huán)境噪聲等具有很強(qiáng)的適應(yīng)性,即使在背景嘈雜、說(shuō)話人口音較重或語(yǔ)速較快的情況下,也能準(zhǔn)確識(shí)別并轉(zhuǎn)錄語(yǔ)音內(nèi)容。
長(zhǎng)語(yǔ)音處理能力:能夠處理較長(zhǎng)的語(yǔ)音輸入,適合需要長(zhǎng)時(shí)間連續(xù)語(yǔ)音轉(zhuǎn)錄的場(chǎng)景。
使用場(chǎng)景:
會(huì)議記錄:將會(huì)議中的語(yǔ)音內(nèi)容實(shí)時(shí)或事后轉(zhuǎn)錄為文本,方便會(huì)后整理和回顧,提高工作效率。
采訪記錄:在新聞采訪、人物訪談等場(chǎng)景中,快速準(zhǔn)確地將采訪者的語(yǔ)音內(nèi)容轉(zhuǎn)錄成文字,便于后續(xù)的編輯和發(fā)布。
語(yǔ)音筆記:將用戶的語(yǔ)音筆記轉(zhuǎn)錄為文本,方便用戶隨時(shí)查看和整理。
客戶呼叫中心:準(zhǔn)確識(shí)別客戶語(yǔ)音,將其轉(zhuǎn)錄為文本,便于客服人員快速理解客戶需求并進(jìn)行相應(yīng)處理。
定價(jià):
每100萬(wàn)個(gè)音頻輸入tokens的價(jià)格為 $6.00,約合每分鐘 $0.006。
2. GPT-4o-mini-transcribe(語(yǔ)音轉(zhuǎn)文本模型的精簡(jiǎn)版)
特點(diǎn):
高效快速:模型體積更小,運(yùn)算速度更快,能夠在短時(shí)間內(nèi)完成語(yǔ)音轉(zhuǎn)錄任務(wù)。
資源占用低:對(duì)硬件資源的要求相對(duì)較低,適合在資源有限的設(shè)備上運(yùn)行。
性價(jià)比高:雖然單詞錯(cuò)誤率(WER)稍高于完整版模型,但仍優(yōu)于原有的 Whisper 模型。
使用場(chǎng)景:
移動(dòng)設(shè)備語(yǔ)音輸入:在智能手機(jī)、平板電腦等移動(dòng)設(shè)備上,為用戶提供快速的語(yǔ)音輸入轉(zhuǎn)錄功能,例如語(yǔ)音輸入文字消息。
小型語(yǔ)音應(yīng)用:適用于一些對(duì)轉(zhuǎn)錄精度要求相對(duì)不高,但需要快速響應(yīng)的小型語(yǔ)音應(yīng)用,如語(yǔ)音指令識(shí)別、簡(jiǎn)單的語(yǔ)音筆記等。
資源受限的環(huán)境:在計(jì)算資源有限的場(chǎng)景下,如一些小型企業(yè)或個(gè)人開(kāi)發(fā)者的項(xiàng)目中,提供高效且成本較低的語(yǔ)音轉(zhuǎn)錄解決方案。
定價(jià):
每100萬(wàn)個(gè)音頻輸入tokens的價(jià)格為 $3.00,約合每分鐘 $0.003。
3. GPT-4o-mini-tts(文本轉(zhuǎn)語(yǔ)音模型)
特點(diǎn):
可引導(dǎo)性:首次支持“可引導(dǎo)性”,開(kāi)發(fā)者不僅可以指定模型“說(shuō)什么”,還能控制“怎么說(shuō)”。例如可以預(yù)設(shè)語(yǔ)音風(fēng)格為“平靜”“沖浪者”“專(zhuān)業(yè)的”“中世紀(jì)騎士”等,還能根據(jù)指令調(diào)整語(yǔ)音風(fēng)格,如“像富有同情心的客服 Agent 一樣說(shuō)話”。
自然流暢的語(yǔ)音:生成的語(yǔ)音自然流暢,富有表現(xiàn)力,能夠根據(jù)文本內(nèi)容和預(yù)設(shè)的風(fēng)格進(jìn)行相應(yīng)的語(yǔ)音表達(dá)。
多語(yǔ)言支持:支持多種語(yǔ)言的文本轉(zhuǎn)語(yǔ)音,滿足不同語(yǔ)言用戶的需求。
使用場(chǎng)景:
有聲讀物:將文字書(shū)籍、文章等轉(zhuǎn)換為有聲內(nèi)容,為用戶提供更加生動(dòng)有趣的閱讀體驗(yàn)。
智能客服:為智能客服系統(tǒng)提供語(yǔ)音合成功能,使客服機(jī)器人能夠以自然、富有表現(xiàn)力的聲音與用戶進(jìn)行交流,提升用戶體驗(yàn)。
語(yǔ)音播報(bào):在新聞播報(bào)、天氣預(yù)報(bào)、交通廣播等場(chǎng)景中,將文本內(nèi)容轉(zhuǎn)換為語(yǔ)音進(jìn)行播報(bào)。
創(chuàng)意內(nèi)容制作:在創(chuàng)意故事講述、廣告制作、視頻配音等領(lǐng)域,根據(jù)不同的創(chuàng)意需求生成具有特定風(fēng)格和情感的語(yǔ)音。
定價(jià):
每100萬(wàn)個(gè)文本輸入tokens的價(jià)格為 $0.60,每100萬(wàn)個(gè)音頻輸出tokens的價(jià)格為 $12.00,約合每分鐘 $0.015。
GPT-4o-transcribe等模型已通過(guò)OpenAI的API接口向開(kāi)發(fā)者開(kāi)放,集成到應(yīng)用程序中非常便捷,僅需少量代碼。開(kāi)發(fā)者可以根據(jù)功能和環(huán)境需要選擇適合自已的模型,也可以到官網(wǎng)體驗(yàn)。
官網(wǎng):http://open ai.fm/
博客:https://openai.com/index/introducing-our-next-generation-audio-models/