Whisper 是Openai 開(kāi)源音頻轉(zhuǎn)文字的語(yǔ)音識(shí)別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,也是一個(gè)多任務(wù)模型,可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別以及語(yǔ)音翻譯和語(yǔ)言識(shí)別。
Whisper有五種模型尺寸,提供速度和準(zhǔn)確性的平衡,其中English-only模型提供了四種選擇。下面是可用模型的名稱、大致內(nèi)存需求和相對(duì)速度。
