AniSora:B站開源的動漫視頻生成模型
AniSora是什么?
AniSora是嗶哩嗶哩在2025年5月12日開源的一個ai動畫視頻生成系統。它能輕松生成各種風格的動漫視頻,比如番劇片段、國創動畫、漫畫改編、VTuber內容、動畫PV,還有鬼畜視頻。這個系統在保持角色形象和動作流暢性方面做得很不錯,可以說是目前最先進的動畫視頻生成模型。
AniSora功能
圖像到視頻生成:根據單張圖片生成連貫的動畫視頻,適用于從靜態畫面擴展為動態場景。
幀插值:支持關鍵幀插值,基于生成中間幀實現平滑過渡,減少動畫制作中手工繪制的工作量。
局部圖像引導:支持用戶指定特定區域進行動畫生成。
時空控制:結合時間和空間的控制能力,支持首幀、尾幀、多幀引導等多種方式,實現精準的動畫創作。
AniSora模型特點
針對性優化:相比自然視頻,動漫視頻在風格上更具表現力和抽象性,傳統的生成模型往往難以精準復現角色神態、動作節奏以及夸張的鏡頭語言。AniSora 針對這些特性做了針對性優化,目標是在不犧牲創意表達的前提下,提升視頻生成效率。
多樣化風格支持:能夠一鍵生成多種風格的視頻片段,涵蓋系列劇集、中國原創動畫、漫畫改編、VTuber 內容、動漫 PV 甚至是鬼畜類創作。
低門檻創作:對于有實際制作需求的個人或工作室而言,AniSora 是極具吸引力的創作工具。
AniSora核心模塊
數據處理流水線:預處理了超過 1000 萬對高質量的文本 - 視頻數據,為訓練提供了堅實基礎。
可控生成模型:引入時空掩碼模塊,支持圖生視頻、關鍵幀插值、局部圖像引導等功能,能夠適配各種創作需求。
評測體系:構建了包含 948 段多樣化動畫片段的評測數據集,結合雙盲人評審和 VBench 評分系統,對人物一致性、動作銜接等維度進行打分。
AniSora技術原理
擴散模型(Diffusion Model):基于擴散模型架構,逐步去除噪聲生成高質量的視頻內容。
時空掩碼模塊(Spatiotemporal Mask Module):支持模型在生成過程中對特定時間和空間區域進行控制,例如掩碼指定哪些幀或哪些區域需要生成動畫,實現局部引導和關鍵幀插值等功能。
3D 因果變分自編碼器(3D Causal VAE):用于對視頻的時空特征進行編碼和解碼,將視頻壓縮到低維的潛在空間,降低計算復雜度,同時保留關鍵的時空信息。
Transformer 架構:結合 Transformer 的強大建模能力,基于注意力機制捕捉視頻中的復雜時空依賴關系,使模型能夠處理長序列數據,生成更連貫的視頻內容。
監督微調(Supervised Fine-Tuning):在預訓練的基礎上,用大量的動畫視頻數據進行監督微調,通過多種策略(如弱到強的訓練策略、多任務學習等)提高模型的泛化能力和生成質量。
數據處理流水線:基于場景檢測、光學流分析、美學評分等技術,從大量原始動畫視頻中篩選出高質量的訓練數據,確保訓練數據的質量和多樣性。
開源地址
https://github.com/bilibili/Index-anisora/tree/main
https://huggingface.co/IndexTeam/Index-anisora
https://www.modelscope.cn/organization/bilibili-index