SketchVideo:一種基于線稿的可控視頻生成和編輯方法
SketchVideo是什么?
SketchVideo 是由中國科學院大學、香港科技大學和快手可靈團隊研究人員提出的一種基于線稿的可控視頻生成和編輯方法開源項目。它靠智能預測運動、多模態控制和實時渲染三大技術,讓動畫創作變得輕松。這個項目在營銷、教學和個人創意展示等領域很有用,能吸引觀眾,引發共鳴,是新興視頻形式的代表。
SketchVideo功能特點
視頻生成:用戶僅需提供單幀或兩幀線稿,并結合文本提示,SketchVideo 就能生成高質量的視頻。例如,繪制一個簡單的動物輪廓線稿,加上“在森林中奔跑”的文本描述,就能生成該動物在森林中奔跑的視頻。
視頻編輯:給定真實視頻后,用戶可以指定編輯區域并繪制線稿進行局部修改。比如在一段人物視頻中,對人物的發型進行修改,新生成的發型會隨著人物的頭部運動而自然變化。
動態控制:支持運動插值和外推,用戶通過繪制不同關鍵幀的線稿,可控制物體的運動狀態。
細節保留:在編輯視頻時,能夠保留未修改區域的細節,確保編輯后的視頻在視覺上自然、連貫。
高效生成:采用內存優化技術,快速生成高質量視頻。例如,SketchGen 模型在 A100 GPU 上生成單幀視頻的時間約為 95 秒。
SketchVideo技術原理
草圖條件網絡:基于 DiT 視頻生成模型,設計專門的草圖條件網絡。該網絡包含多個草圖控制塊,預測跳過的 DiT 塊的殘差特征,并將控制信號注入到不同層次的特征中。
幀間注意力機制:通過計算所有幀的隱藏特征與控制幀的隱藏特征之間的關系,將關鍵幀上的草圖條件傳播到所有視頻幀,實現對草圖特征的時空傳播。
視頻插入模塊:在視頻編輯任務中,該模塊分析輸入草圖與原始視頻之間的關系,生成與原始視頻空間和時間上一致的新內容。
潛在融合技術:在推理過程中,基于 DDIM 反演生成輸入視頻的噪聲潛在碼。在未編輯區域替換這些潛在碼,保留原始視頻的細節。
混合訓練策略:結合圖像和視頻數據進行訓練。先用圖像和視頻數據加速收斂,解決視頻數據有限的問題;再用視頻數據進一步優化時間連貫性。
SketchVideo優勢
降低創作門檻:讓普通用戶無需專業知識和技能,通過草圖和文本就能輕松創作視頻,激發每個人的創作潛能。
精準控制細節:通過草圖條件網絡預測并注入不同層次的特征控制信號,能細致地描繪和呈現從物體形狀、位置到場景整體布局等每一個細節。
高效便捷:采用基于DiT的視頻生成模型,創新性地加入草圖控制塊和幀間注意力機制,保證高質量輸出的同時實現高效的內存優化,快速生成視頻,節省創作時間。
SketchVideo應用場景
影視制作:可用于快速生成動畫視頻,或對影視片段進行特效添加、場景修改等操作。
短視頻合成:創作者可輕松創作個性化的短視頻內容,如手繪風格的動畫故事、創意廣告等。
虛擬仿真:在虛擬場景構建中,通過線稿快速生成動態的虛擬環境,用于游戲開發、虛擬培訓等領域。
項目信息
論文:https://arxiv.org/abs/2503.23284
項目官網:http://geometrylearning.com/SketchVideo
GitHub 倉庫:https://github.com/IGLICT/SketchVideo