PixelHacker:AI局部重繪,一種基于擴散模型的圖像修復工具
PixelHacker是什么?
PixelHacker 是一種基于擴散模型的圖像修復工具,專注于在修復過程中保持圖像的結構和語義一致性。它通過潛在類別指導的方法,對前景和背景進行標注,并利用這些標注信息來指導修復過程。
PixelHacker 的主要特點
強大的復雜結構修復能力:能夠準確捕捉和重建圖像中的復雜紋理、形狀和空間關系。
語義一致性:修復后的圖像在顏色、對象特征和邏輯結構上與原始圖像高度一致。
數據集與預訓練:基于包含 1400 萬個圖像 - 掩碼對的大型數據集進行預訓練,并在開源基準上進行微調。
廣泛的適用性:在 Places2、CelebA-HQ 和 FFHQ 等數據集上表現出色。
PixelHacker核心技術
潛在類別指導(Latent Categories Guidance, LCG):PixelHacker 通過構建一個包含 1400 萬個圖像 - 掩碼對的大型數據集,并對前景和背景進行標注(前景有 116 個潛在類別,背景有 21 個潛在類別),從而在修復過程中引導模型關注圖像的結構和語義信息。
線性注意力機制:模型通過兩個固定大小的嵌入向量分別對潛在的前景和背景特征進行編碼,并在去噪過程中通過線性注意力機制將這些特征間歇性地注入到模型中。
PixelHacker架構
PixelHacker 基于潛在擴散架構(Latent Diffusion Architecture),通過編碼器將輸入圖像轉換到潛在空間,然后在去噪過程中注入前景和背景特征,最后通過解碼器重建修復后的圖像。
方法與流程
數據集構建:通過標注前景和背景類別,構建了一個大規模的圖像 - 掩碼對數據集。
特征編碼:使用固定大小的嵌入向量分別對前景和背景進行編碼。
去噪過程:在擴散模型的去噪過程中,通過線性注意力機制將前景和背景特征注入到模型中,促進結構和語義的多重交互。
預訓練與微調:在自建數據集上進行預訓練,并在開源基準數據集上進行微調,最終得到 PixelHacker 模型。
PixelHacker應用場景
圖像修復:去除廣告、填補劃痕、修復損壞區域。
圖像編輯:背景替換、對象替換,保持整體自然感。
藝術創作:創意生成、風格轉換。
文化遺產保護:修復古籍、壁畫等文化遺產圖像。
醫療圖像處理:去除偽影、增強圖像細節。
項目鏈接
項目主頁:https://hustvl.github.io/PixelHacker/
GitHub 代碼:https://github.com/hustvl/PixelHacker
論文鏈接:https://arxiv.org/abs/2504.20438