CreatiDesign模型:用于創意平面設計的統一多條件擴散變換器
CreatiDesign 是復旦大學和字節跳動團隊合作開發的一款高精度、多模態、可編輯的圖形設計生成模型。它能夠高精度地生成圖形設計,同時處理多種元素,包括主視覺元素、輔助裝飾和文本內容,解決了傳統方法在多條件輸入時的不足。通過精細解耦和獨立控制,CreatiDesign 讓設計更加可控、一致。
這個模型采用創新的多模態注意力機制,還能自動合成數據,因此在多個評估標準上都超過了現有的頂尖水平。它不僅提高了設計效率,還讓用戶可以在已有設計的基礎上靈活修改,比如添加新元素或調整文本,同時保持整體設計的協調和完整。
模型架構
CreatiDesign 采用 MM-DiT(多模態擴散變換器)框架,通過簡化架構實現了多種不同條件的協同控制。主要特點如下:
多主體圖像條件:用戶可以輸入多個主視覺元素(如產品圖、LOGO等),并自由擺放。這些元素經過編碼器處理后生成主視覺token,用于后續生成。
語義布局條件:輔助元素或文本的語義描述通過T5文本編碼器轉換為語義特征token,空間位置信息經傅立葉變換后與語義特征拼接,形成布局token。
全局描述:用戶還可以輸入整體描述,由T5編碼為全局描述token,用于指導整體內容和風格。
多模態注意力機制:在每一層Transformer中,采用多模態注意力(MM-Attention)機制,使不同模態的token深度融合,實現多條件的聯合建模和控制。
獨立可控性
CreatiDesign 提出了兩種專屬注意力掩碼機制,增強每個條件的獨立可控性:
主體注意力掩碼(Subject Attention Mask):主體token僅與指定區域內的圖像token交互,與布局token、全局描述token及無關區域的圖像token完全隔離,確保主體內容高度還原。
布局注意力掩碼(Layout Attention Mask):每個布局token僅與指定區域內的圖像token交互,防止布局元素之間語義串擾。
數據集
CreatiDesign 構建了包含40萬樣本的大規模多條件標注數據集,滿足實際設計需求。此外,還提出了全自動平面設計數據合成流程,包括主題生成、文本圖層渲染和基于前景的圖像生成。
應用場景
CreatiDesign 可以生成各種平面設計圖,如電影海報、品牌促銷、產品廣告和社交媒體圖。它還支持多輪編輯,用戶可以在已有設計結果上靈活插入新文本或主體,或修改文本內容,模型能夠精準編輯指定區域,同時保持非編輯區域的內容不變。
優勢
相比以往的可控擴散模型,CreatiDesign 在多條件異質信息統一建模、多條件精細解耦與區域獨立控制以及大規模高質量數據支持等方面表現出色。它解決了以往模型在處理圖形設計時存在的“偏科”或缺乏精準可控性的問題。
項目鏈接
技術論文:https://arxiv.org/pdf/2505.19114
項目主頁:https://huizhang0812.github.io/CreatiDesign/
Github:https://github.com/HuiZhang0812/CreatiDesign
HuggingFace:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset