Light-A-Video

一個應(yīng)用于逐幀圖像重光照模型的簡單應(yīng)用，無需重新訓(xùn)練DiT視頻模型，即可實(shí)現(xiàn)調(diào)整視頻的光照效果，并且生成的視頻幀在光源和外觀上更加一致。

#Ai工具箱 #Ai開源項(xiàng)目

Light-A-Video簡介

Light-A-Video是一個應(yīng)用于逐幀圖像重光照模型的簡單應(yīng)用，主要解決光源一致性以及重光照外觀的問題。該項(xiàng)目的目標(biāo)是提升視頻中光照效果的自然性，使得生成的視頻幀在光源和外觀上更加一致，解決了傳統(tǒng)視頻重光照方法面臨的高訓(xùn)練成本、數(shù)據(jù)稀缺性、時間一致性差以及應(yīng)用領(lǐng)域限制等問題。

Light-A-Video功能特征：

無需訓(xùn)練：Light-A-Video采用無監(jiān)督學(xué)習(xí)的方式，不需要大規(guī)模的數(shù)據(jù)集或復(fù)雜的訓(xùn)練過程。

CLA模塊：通過雙流注意力機(jī)制，結(jié)合原始幀的高頻細(xì)節(jié)和跨幀平均后的穩(wěn)定背景光照，確保光照源的穩(wěn)定性，減少閃爍。

PLF策略：該策略逐步融合重光照效果，確保在視頻去噪過程中保持光照的一致性和平滑過渡，從而避免了逐幀處理導(dǎo)致的不自然效果。

廣泛兼容性：該方法與多種視頻生成模型兼容，如UNet和DiT，顯示了其在不同應(yīng)用場景中的通用性。

光照一致性：通過引入兩個核心模塊來增強(qiáng)視頻中的光照一致性：

Consistent Light Attention (CLA)：通過增強(qiáng)自注意力機(jī)制中的跨幀交互，確保背景光源的一致性。
Progressive Light Fusion (PLF)：利用光傳輸?shù)莫?dú)立性原理，通過線性混合來平滑光照過渡，確保視頻幀間的光照一致性。

技術(shù)流程：

視頻編碼與加噪：輸入視頻被編碼到潛在空間，并添加噪聲以準(zhǔn)備后續(xù)處理。
逐幀重光照：利用預(yù)訓(xùn)練的圖像重光照模型對每一幀進(jìn)行處理。
CLA模塊應(yīng)用：通過增強(qiáng)跨幀交互，穩(wěn)定光照效果，保持視頻幀間的一致性。
PLF策略實(shí)施：逐步將重光照效果融入視頻的去噪過程，確保時間上的平滑過渡。
視頻解碼：最終生成重光照后的視頻，保持高質(zhì)量和時間連貫性。

Light-A-Video應(yīng)用場景：

Light-A-Video只要為視頻編輯、電影特效制作、虛擬現(xiàn)實(shí)、廣告和游戲開發(fā)等領(lǐng)域提供更高效、更靈活的視頻光照調(diào)整工具：

全視頻重光照：適用于整個視頻的重光照。
視頻前景重光照：結(jié)合背景生成進(jìn)行視頻前景的重光照。

Light-A-Video應(yīng)用.webp

Light-A-Video 由來自上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)、香港中文大學(xué)、香港科技大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)的研究人員共同開發(fā)，是首個無需預(yù)先訓(xùn)練就能夠?qū)崿F(xiàn)高質(zhì)量、時間連貫的視頻重光照模型。

RAGFlow

Simba