TaleStreamAI:實現小說文本到短視頻的自動化轉換,適合做小說推文
TaleStreamai是什么?
TaleStreamAI 是一款開源項目,能夠實現小說文本到短視頻的自動化轉換。
TaleStreamAI技術亮點
智能分鏡:借助 Gemini 模型拆解小說情節,把長章節切割成多個部分,避免處理超量內容,同時為每個分鏡規劃好文字和鏡頭腳本,讓故事呈現更連貫。
提示詞優化:通過 DeepSeek-V3 模型對繪圖提示詞進行打磨,讓分鏡里的文字描述更精準適配 AI 繪圖需求,提升生成畫面的質量和貼合度。
精準字幕:運用靜音檢測與語音分析技術,結合 OpenAI 的 Whisper 模型做語音識別,生成精準的 SRT 字幕,保證字幕和音頻完美同步。
視頻效果處理:利用 MoviePy 庫開發的圖像移動算法,能實現平移等多種畫面效果,自動添加字幕,還支持自定義視頻分辨率和比例,產出專業級視頻。
資源管理優化:通過垃圾回收、臨時文件清理、內存優化等手段,保證程序長時間穩定運行,即便處理大量視頻任務也不易出錯。同時,模塊化架構、多線程處理、錯誤恢復機制等設計,也讓系統更靈活高效。
TaleStreamAI運行流程
內容抓取:從起點網站獲取指定小說,用 BeautifulSoup 庫解析網頁,提取章節內容并保存為獨立文本文件。
分鏡制作:Gemini 大語言模型將小說內容拆解成多個場景,每個分鏡包含內容、中英文鏡頭描述等信息。
提示詞精修:DeepSeek-V3 模型進一步優化分鏡提示詞,形成適合 AI 繪圖的精準指令。
圖像生成:把優化后的提示詞發送到 Stable Diffusion API(免費),獲取高質量畫面。
音頻合成:借助 CosyVoice2 語音合成模型,將分鏡文字轉成自然的語音旁白,支持多線程處理和 API 密鑰輪換,輸出 MP3 格式音頻。
字幕生成:用 Whisper 模型對音頻做語音識別,通過增強分段技術生成精確的 SRT 字幕文件。
單鏡合成:將畫面、音頻、字幕整合,利用 MoviePy 庫添加視頻效果,制作成單個視頻片段。
成片制作:使用 FFmpeg 的 concat 功能,按順序合并所有視頻片段,并優化內存使用,輸出完整視頻。
TaleStreamAI應用場景
小說宣傳:作者可以把作品片段做成視頻,吸引更多讀者關注。
內容盈利:將公版或原創小說制作成短視頻,在各平臺發布獲取流量收益。
教育輔助:把文學作品變成可視化視頻,幫助學生理解經典文學。
媒體創作:為廣播劇、有聲書配上畫面,豐富內容表現形式 。
Github:https://github.com/Mubashir-414/TaleStreamAI