首頁 > Ai資訊 > Ai產品

CreatiDesign模型：用于創意平面設計的統一多條件擴散變換器

CreatiDesign于2025-06-12發布在Ai產品

CreatiDesign 是復旦大學和字節跳動團隊合作開發的一款高精度、多模態、可編輯的圖形設計生成模型。它能夠高精度地生成圖形設計，同時處理多種元素，包括主視覺元素、輔助裝飾和文本內容，解決了傳統方法在多條件輸入時的不足。通過精細解耦和獨立控制，CreatiDesign 讓設計更加可控、一致。

這個模型采用創新的多模態注意力機制，還能自動合成數據，因此在多個評估標準上都超過了現有的頂尖水平。它不僅提高了設計效率，還讓用戶可以在已有設計的基礎上靈活修改，比如添加新元素或調整文本，同時保持整體設計的協調和完整。

CreatiDesign模型：用于創意平面設計的統一多條件擴散變換器.webp

模型架構

CreatiDesign 采用 MM-DiT（多模態擴散變換器）框架，通過簡化架構實現了多種不同條件的協同控制。主要特點如下：

多主體圖像條件：用戶可以輸入多個主視覺元素（如產品圖、LOGO等），并自由擺放。這些元素經過編碼器處理后生成主視覺token，用于后續生成。
語義布局條件：輔助元素或文本的語義描述通過T5文本編碼器轉換為語義特征token，空間位置信息經傅立葉變換后與語義特征拼接，形成布局token。
全局描述：用戶還可以輸入整體描述，由T5編碼為全局描述token，用于指導整體內容和風格。
多模態注意力機制：在每一層Transformer中，采用多模態注意力（MM-Attention）機制，使不同模態的token深度融合，實現多條件的聯合建模和控制。

CreatiDesign 提出了兩種專屬注意力掩碼機制，增強每個條件的獨立可控性：

主體注意力掩碼（Subject Attention Mask）：主體token僅與指定區域內的圖像token交互，與布局token、全局描述token及無關區域的圖像token完全隔離，確保主體內容高度還原。
布局注意力掩碼（Layout Attention Mask）：每個布局token僅與指定區域內的圖像token交互，防止布局元素之間語義串擾。