UniCombine框架:支持文本提示、空間映射和主體圖像的任意組合生成
UniCombine是什么?
UniCombine 是由復旦大學、騰訊優(yōu)圖實驗室等機構聯(lián)合推出的多條件可控生成框架,基于擴散變壓器(Diffusion Transformer,DiT)架構,能夠處理文本提示、空間映射、主體圖像等任意控制條件的組合生成任務。
UniCombine核心功能
UniCombine 能夠處理任意條件組合,不限于文本提示(text prompts)、空間圖(spatial maps)和主體圖像(subject images),并確保生成結果與所有輸入條件保持一致性。比如,它可以完成以下任務:
主體插入(Subject-Insertion):將指定主體插入到背景圖像中。
主體空間對齊(Subject-Spatial):根據空間圖對主體進行布局調整。
多空間條件生成(Multi-Spatial):結合多種空間條件生成圖像。
UniCombine技術架構
UniCombine 的架構基于 MMDiT(Masked Multi-Modal Diffusion Transformer),并引入了以下機制:
條件 MMDiT 注意力機制(Conditional MMDiT Attention):用于處理多條件輸入序列,能夠有效融合不同條件的特征。
LoRA 切換模塊(LoRA Switching Module):管理多個條件分支,根據條件類型動態(tài)激活預訓練的條件 LoRA 模塊。
可訓練的去噪 LoRA 模塊(Denoising-LoRA Module):在訓練版本中,通過訓練該模塊進一步提升性能。
UniCombine特點與優(yōu)勢
通用性:能夠處理任意條件組合,適用于多種生成任務。
靈活性:提供無訓練(training-free)和基于訓練(training-based)兩種版本。
高性能:在多條件生成任務中表現出色,達到了最先進的性能。
UniCombine安裝與使用
UniCombine 的代碼已開源,安裝步驟如下:
conda create -n unicombine python=3.12 conda activate unicombine pip install -r requirements.txt
此外,由于 diffusers 庫的限制,需要手動更新代碼。
UniCombine應用場景
商品展示與文案生成:根據文本、主體圖像生成多風格商品圖及匹配文案。
個性化推薦:結合用戶偏好生成定制化商品展示頁面。
虛擬試穿:結合用戶虛擬形象生成試穿效果,提升購物體驗。
廣告與種草內容:生成圖文、視頻腳本等,提升內容豐富度。
多模態(tài)搜索:結合商品特征優(yōu)化搜索結果精準度。
GitHub 倉庫:https://github.com/Xuan-World/UniCombinearXiv
論文:https://arxiv.org/html/2503.09277v1