
PDF2Audio
PDF2Audio簡(jiǎn)介
PDF2Audio是一個(gè)開(kāi)源項(xiàng)目,旨在將 PDF 文件轉(zhuǎn)換為音頻格式,例如播客、講座或摘要。該項(xiàng)目使用 Openai 的 GPT 模型進(jìn)行文本生成和文本到語(yǔ)音 (TTS) 轉(zhuǎn)換。用戶可以上傳多個(gè)PDF文件并根據(jù)不同的模板生成音頻內(nèi)容(例如播客、講座、摘要)。
PDF2Audio的特點(diǎn):
支持多個(gè)PDF文件上傳:用戶可以同時(shí)上傳多個(gè)PDF文件,并批量處理文檔。
多種模板可供選擇:根據(jù)用戶需求,支持生成不同類型的音頻內(nèi)容。模板包括播客、講座、摘要和其他不同的場(chǎng)景。
定制生成模型:用戶可以自定義GPT模型和文本轉(zhuǎn)語(yǔ)音(TTS)模型來(lái)生成滿足特定需求的音頻內(nèi)容。
不同的語(yǔ)音選項(xiàng):支持多種語(yǔ)音風(fēng)格和音色的選擇,為生成的音頻提供不同的聽(tīng)覺(jué)體驗(yàn)。
如何使用PDF2Audio?
上傳一個(gè)或多個(gè) PDF 文件。
選擇所需的模板(例如播客、講座或摘要)。
選擇型號(hào)并輸入API KEY
自定義構(gòu)建參數(shù),例如選擇音色或調(diào)整構(gòu)建指令。
單擊“生成音頻”,應(yīng)用程序?qū)⑻幚砦臋n并生成音頻文件。
GitHub: https://github.com/lamm-mit/PDF2Audio
在線體驗(yàn): https ://huggingface.co/spaces/lamm-mit/PDF2Audio