首頁 > Ai資訊 > Ai產品

XVerse：字節跳動推出的多主體圖像合成開源工具

映技派于2025-07-02發布在Ai產品

XVerse是字節跳動推出的一款多主體圖像合成工具，可以實現高精度的多主體圖像生成。它通過用戶獨立且精確地控制多個主體，大大提高復雜場景的生成能力。

核心功能

多主體控制：XVerse將參考圖像轉換為文本流調制的偏移量，精確控制每個主體的身份特征，獨立調整語義屬性（姿勢、風格、光照等）。這解決了傳統模型在多主體場景中常見的身份混淆和屬性糾纏問題，實現了高保真、可編輯的多主體圖像合成。
文本流調制增強：通過結合參考圖像特征與文本提示特征生成偏移量，并將其注入特定文本標記嵌入，XVerse實現了對每個主體的精確控制，同時保持了生成圖像的整體結構，并能精細調整細節。
VAE編碼圖像特征：XVerse引入VAE編碼的圖像特征作為輔助輸入，注入到DiTs的單個塊中。這有助于捕捉和再現圖像細節信息，避免了直接注入圖像特征可能導致的偽影和質量下降。
正則化技術：采用區域保持損失，強制模型在未調制區域保持一致性，區分和保持不同主體的特征。通過文本-圖像注意力損失，對齊調制模型和參考T2I分支之間的交叉注意力圖，確保模型在調制過程中語義交互的一致性和可編輯性。

XVerse技術原理

文本流調制機制：XVerse將參考圖像轉換為特定于標記的文本流調制偏移量，添加到模型的文本嵌入中，從而實現對特定主體的精確控制，而不干擾圖像潛在變量或特征。
VAE編碼圖像特征模塊：為了增強生成圖像的細節保留能力，XVerse引入了VAE編碼的圖像特征模塊。該模塊作為輔助模塊，幫助模型在生成過程中保留更多細節信息，減少偽影和失真。
正則化技術：基于隨機保留一側的調制注入，強制模型在非調制區域保持一致性。正則化主體特定的特征，作為多主體數據集的數據增強策略，提高模型在多主體場景中的區分和保持主體特征的能力。通過計算調制模型和參考T2I分支之間的文本圖像交叉注意力圖的L2損失，確保調制模型保留與T2I分支一致的注意力模式，保持語義交互的一致性和可編輯性。

XVerse技術原理

應用場景

數字內容創作：XVerse幫助創作者輕松實現對多個主體的精確控制，可用于繪制漫畫、創作故事插圖、構建復雜虛擬場景等，使作品更生動、豐富、富有想象力。
廣告行業：XVerse能夠精準控制每個主體的屬性，確保廣告畫面的高保真度和一致性，使廣告更引人注目，提升傳播效果。
藝術領域：為藝術家提供全新的創作工具，突破傳統創作限制，創造獨特、富有表現力的藝術作品。

XVerse使用方法

用戶需要創建一個包含Python 3.10.16的conda環境，安裝依賴項，并下載相關檢查點和人臉識別模型。用戶界面友好，提供豐富的輸入設置選項，包括“檢測與分割”功能，可分析上傳圖像，自動裁剪人臉并生成描述。此外，還提供互動的Gradio演示，用戶可以上傳圖像、輸入描述，并實時生成圖像，通過調節參數優化效果。