MM_StoryAgent:上海交大和阿里開源的一款AI多模態故事生成系統
MM-StoryAgent是什么?
MM-StoryAgent是上海交大和阿里開源的一款ai多模態故事生成系統,采用多智能體范式,能生成沉浸式的有聲故事書視頻。它融合了文本、圖像、音頻等多種元素,借助大型語言模型和一些專業工具,自動生成包含文字、圖像以及多聲道音頻(旁白、音效、背景音樂)的故事視頻,可用于兒童故事快速創作。
MM-StoryAgent功能特點
創作高質量故事:依據輸入的故事設定,通過多智能體、多階段的流程創作故事。采用自上而下構思草稿、自下而上生成素材的方式,解決手動干預、場景編排和敘事一致等問題。
生成多模態內容:結合文本、圖像、語音、音樂等模態生成沉浸式故事視頻。將任務分解后分配給不同的專業“智能體”,如負責故事設計、故事板生成、視頻創建等,模擬專業制作流程。
支持定制化工作流:提供可靠且可定制的工作流程,用戶能通過配置文件等方式自定義智能體行為,定義自己的專業工具來提升各組件生成質量。
增強角色一致性:生成過程中注重角色和主題的一致性。采用定制化的圖像轉視頻方法和新的故事板生成流程,保證鏡頭間主體一致。
自動化且靈活:利用大型語言模型和專業工具,能將簡單提示自動轉換為多模態數字故事,無需參考視頻就能生成連貫內容。
便于評估優化:提供故事主題列表和評估標準,方便用戶評估生成故事的質量并進行改進。
MM-StoryAgent核心技術
多智能體框架運作機制:通過多階段寫作流程和多智能體協作創作故事,整合視覺、聽覺和敘事元素,帶來全方位感官體驗。
定制圖像轉視頻方法:引入LoRA-BE這種定制的圖像轉視頻方法,增強鏡頭內時間一致性,提升視頻視覺質量。
MM-StoryAgent使用方法
獲取源代碼:訪問MM_StoryAgent的GitHub倉庫(見下面鏈接),下載源代碼。
安裝依賴項:按照項目文檔說明,安裝Python庫等必要的軟件包。
配置環境:設置開發環境,確保依賴項正確安裝,可能需要配置一些環境變量。
準備輸入數據:準備好故事設定、角色描述、場景信息等數據用于故事創作。
運行生成過程:使用提供的腳本或命令行工具啟動生成流程,可通過指定輸入數據和參數定制故事。
查看評估結果:生成的視頻形式的故事輸出后,查看并評估質量和效果,按需調整。
優化迭代:根據評估結果調整輸入數據或參數,重新運行生成流程優化故事內容和表現力 。
GitHub倉庫:https://github.com/X-PLUG/MM_StoryAgent