PixelHacker:AI局部重繪,一種基于擴散模型的圖像修復(fù)工具
PixelHacker是什么?
PixelHacker 是一種基于擴散模型的圖像修復(fù)工具,專注于在修復(fù)過程中保持圖像的結(jié)構(gòu)和語義一致性。它通過潛在類別指導(dǎo)的方法,對前景和背景進行標(biāo)注,并利用這些標(biāo)注信息來指導(dǎo)修復(fù)過程。
PixelHacker 的主要特點
強大的復(fù)雜結(jié)構(gòu)修復(fù)能力:能夠準確捕捉和重建圖像中的復(fù)雜紋理、形狀和空間關(guān)系。
語義一致性:修復(fù)后的圖像在顏色、對象特征和邏輯結(jié)構(gòu)上與原始圖像高度一致。
數(shù)據(jù)集與預(yù)訓(xùn)練:基于包含 1400 萬個圖像 - 掩碼對的大型數(shù)據(jù)集進行預(yù)訓(xùn)練,并在開源基準上進行微調(diào)。
廣泛的適用性:在 Places2、CelebA-HQ 和 FFHQ 等數(shù)據(jù)集上表現(xiàn)出色。
PixelHacker核心技術(shù)
潛在類別指導(dǎo)(Latent Categories Guidance, LCG):PixelHacker 通過構(gòu)建一個包含 1400 萬個圖像 - 掩碼對的大型數(shù)據(jù)集,并對前景和背景進行標(biāo)注(前景有 116 個潛在類別,背景有 21 個潛在類別),從而在修復(fù)過程中引導(dǎo)模型關(guān)注圖像的結(jié)構(gòu)和語義信息。
線性注意力機制:模型通過兩個固定大小的嵌入向量分別對潛在的前景和背景特征進行編碼,并在去噪過程中通過線性注意力機制將這些特征間歇性地注入到模型中。
PixelHacker架構(gòu)
PixelHacker 基于潛在擴散架構(gòu)(Latent Diffusion Architecture),通過編碼器將輸入圖像轉(zhuǎn)換到潛在空間,然后在去噪過程中注入前景和背景特征,最后通過解碼器重建修復(fù)后的圖像。
方法與流程
數(shù)據(jù)集構(gòu)建:通過標(biāo)注前景和背景類別,構(gòu)建了一個大規(guī)模的圖像 - 掩碼對數(shù)據(jù)集。
特征編碼:使用固定大小的嵌入向量分別對前景和背景進行編碼。
去噪過程:在擴散模型的去噪過程中,通過線性注意力機制將前景和背景特征注入到模型中,促進結(jié)構(gòu)和語義的多重交互。
預(yù)訓(xùn)練與微調(diào):在自建數(shù)據(jù)集上進行預(yù)訓(xùn)練,并在開源基準數(shù)據(jù)集上進行微調(diào),最終得到 PixelHacker 模型。
PixelHacker應(yīng)用場景
圖像修復(fù):去除廣告、填補劃痕、修復(fù)損壞區(qū)域。
圖像編輯:背景替換、對象替換,保持整體自然感。
藝術(shù)創(chuàng)作:創(chuàng)意生成、風(fēng)格轉(zhuǎn)換。
文化遺產(chǎn)保護:修復(fù)古籍、壁畫等文化遺產(chǎn)圖像。
醫(yī)療圖像處理:去除偽影、增強圖像細節(jié)。
項目鏈接
項目主頁:https://hustvl.github.io/PixelHacker/
GitHub 代碼:https://github.com/hustvl/PixelHacker
論文鏈接:https://arxiv.org/abs/2504.20438