XVerse:字節跳動推出的多主體圖像合成開源工具
XVerse是字節跳動推出的一款多主體圖像合成工具,可以實現高精度的多主體圖像生成。它通過用戶獨立且精確地控制多個主體,大大提高復雜場景的生成能力。
核心功能
多主體控制:XVerse將參考圖像轉換為文本流調制的偏移量,精確控制每個主體的身份特征,獨立調整語義屬性(姿勢、風格、光照等)。這解決了傳統模型在多主體場景中常見的身份混淆和屬性糾纏問題,實現了高保真、可編輯的多主體圖像合成。
文本流調制增強:通過結合參考圖像特征與文本提示特征生成偏移量,并將其注入特定文本標記嵌入,XVerse實現了對每個主體的精確控制,同時保持了生成圖像的整體結構,并能精細調整細節。
VAE編碼圖像特征:XVerse引入VAE編碼的圖像特征作為輔助輸入,注入到DiTs的單個塊中。這有助于捕捉和再現圖像細節信息,避免了直接注入圖像特征可能導致的偽影和質量下降。
正則化技術:采用區域保持損失,強制模型在未調制區域保持一致性,區分和保持不同主體的特征。通過文本-圖像注意力損失,對齊調制模型和參考T2I分支之間的交叉注意力圖,確保模型在調制過程中語義交互的一致性和可編輯性。
XVerse技術原理
文本流調制機制:XVerse將參考圖像轉換為特定于標記的文本流調制偏移量,添加到模型的文本嵌入中,從而實現對特定主體的精確控制,而不干擾圖像潛在變量或特征。
VAE編碼圖像特征模塊:為了增強生成圖像的細節保留能力,XVerse引入了VAE編碼的圖像特征模塊。該模塊作為輔助模塊,幫助模型在生成過程中保留更多細節信息,減少偽影和失真。
正則化技術:基于隨機保留一側的調制注入,強制模型在非調制區域保持一致性。正則化主體特定的特征,作為多主體數據集的數據增強策略,提高模型在多主體場景中的區分和保持主體特征的能力。通過計算調制模型和參考T2I分支之間的文本圖像交叉注意力圖的L2損失,確保調制模型保留與T2I分支一致的注意力模式,保持語義交互的一致性和可編輯性。
應用場景
數字內容創作:XVerse幫助創作者輕松實現對多個主體的精確控制,可用于繪制漫畫、創作故事插圖、構建復雜虛擬場景等,使作品更生動、豐富、富有想象力。
廣告行業:XVerse能夠精準控制每個主體的屬性,確保廣告畫面的高保真度和一致性,使廣告更引人注目,提升傳播效果。
藝術領域:為藝術家提供全新的創作工具,突破傳統創作限制,創造獨特、富有表現力的藝術作品。
XVerse使用方法
用戶需要創建一個包含Python 3.10.16的conda環境,安裝依賴項,并下載相關檢查點和人臉識別模型。用戶界面友好,提供豐富的輸入設置選項,包括“檢測與分割”功能,可分析上傳圖像,自動裁剪人臉并生成描述。此外,還提供互動的Gradio演示,用戶可以上傳圖像、輸入描述,并實時生成圖像,通過調節參數優化效果。
項目地址
項目官網:https://bytedance.github.io/XVerse/
GitHub倉庫:https://github.com/bytedance/XVerse
HuggingFace模型庫:https://huggingface.co/ByteDance/XVerse
arXiv技術論文:https://arxiv.org/pdf/2506.21416