Insert Anything:開源圖片編輯框架,可以換臉、換服裝等功能
Insert Anything 介紹
Insert Anything 是一個由浙江大學、哈佛大學和南洋理工大學聯合提出的統一圖像插入框架,可以將參考圖像中的對象無縫集成到目標場景中,支持多種實際應用場景,如藝術創作、逼真的臉部交換、電影場景構圖、虛擬服裝試穿、配飾定制和數字道具更換。
Insert Anything技術原理
1. AnyInsertion 數據集
規模與內容:該框架基于一個包含 12 萬個提示-圖像對的 AnyInsertion 數據集,涵蓋了人物、物體和服裝插入等多種任務。
多控制模式:數據集支持兩種控制模式,即掩碼提示(58K 對)和文本提示(101K 對),為模型提供了豐富的訓練樣本。
2. Diffusion Transformer (DiT)
多模態注意力機制:Insert Anything 利用 DiT 的多模態注意力機制,支持掩碼和文本引導的編輯。該機制通過圖像分支和文本分支分別處理視覺輸入和文本描述,然后通過多模態注意力融合這些信息。
圖像分支:處理參考圖像、源圖像和掩碼,提取視覺特征并與噪聲拼接。
文本分支:編碼文本描述以提供語義引導。
3. 上下文編輯機制
雙聯畫與三聯畫提示策略:
掩碼提示雙聯畫:左側為參考圖像,右側為帶有掩碼的目標圖像。
文本提示三聯畫:左側為參考圖像,中間為源圖像,右側為文本生成的結果。
功能:該機制將參考圖像視為上下文信息,通過隱式交互確保插入元素與目標場景的視覺一致性,同時保留其獨特特征。
優勢
通用性:單一模型能夠處理多種插入任務,避免了為每個任務單獨訓練模型。
靈活性:支持掩碼和文本兩種控制模式,滿足不同用戶的編輯需求。
視覺一致性:通過上下文編輯機制,確保插入元素與目標場景自然融合。
Insert Anything應用場景
藝術創作:將藝術元素無縫插入到不同的背景中。
商業廣告:將產品圖像插入到廣告場景中。
流行文化創作:將流行文化元素插入到相關場景中。
項目鏈接
項目主頁:https://song-wensong.github.io/insert-anything/
論文:https://arxiv.org/abs/2504.15009
Github:https://github.com/song-wensong/insert-anything