MuseSteamer:百度自研的AI視頻生成模型
MuseSteamer 是百度在 2025 年 7 月 2 日發布的視頻生成模型。它能同時生成畫面、音效和臺詞,是首個實現中文音視頻一體化生成的模型,改變了傳統 aiGC 視頻先畫面后配音的模式。百度還同步推出了 AI 視頻創作平臺 “繪想”。
功能特點:
音視頻一體化生成:全球首個實現中文音視頻一體化生成的視頻模型,能夠實現畫面與音效、人聲臺詞的協同創作,打破了傳統AIGC視頻“先畫面后配音”的割裂流程。
多模態輸入:支持中文文本提示、參考圖像等輸入方式。
視頻生成:可生成長達 10 秒的動態視頻,畫質出色,能靈活控制場景、動作和鏡頭感,實現音視一體化。比如生成的古裝武俠視頻,人物動作、表情自然,運鏡專業。
一體化生成:能同步生成畫面、音效和臺詞,聲音與畫面自然匹配,提升視頻的完整性和藝術表現力。
中文語義理解:精準理解中文語義,通過優化數據體系,確保文本指令與視覺元素的語義對齊。
視頻描述語言:采用精細化的視頻結構化描述語言,涵蓋畫面細節、主體運動軌跡、風格屬性和鏡頭語言等,保障模型對畫面細節的遵循。
技術突破:
億級中文多模態數據清洗:深度清洗大量中文多模態數據,確保訓練數據的高質量。
精細化視頻結構化描述語言:提升模型對視頻內容的理解和生成能力。
多目標強化學習:優化路徑,保證視頻動作幅度的同時,保持主體內容的一致性穩定輸出。
產品矩陣及適用人群:
Lite 版:720p,生成速度快(30 秒),價格實惠,適合追求性價比的用戶。
Turbo 版:720p,擅長生成人物、動漫視頻,動作一致性好,運動幅度大,表情自然,適合大部分創作者,已上線繪想平臺并開啟限時免費公測。
Pro 版:1080p,電影級畫質和運鏡,表現力強,適合專業創作者和影視生產機構。
有聲版:各清晰度均支持一體化生成音效及臺詞,適合對同期聲和畫面有高要求的用戶。
應用場景:
視頻創作:幫助創作者突破創意瓶頸,快速生成高質量視頻。
廣告制作:為廣告視頻制作提供高效解決方案,提升吸引力。
教育與培訓:生成教育視頻和動畫,直觀解釋復雜概念。
個人娛樂:用戶上傳圖片即可生成個性化視頻,分享個人故事。