Nexus-Gen:開源全能圖像模型,具備GPT-4o相媲美的圖像理解、生成和編輯能力
Nexus-Gen是ModelScope 團隊開源的圖像模型,其圖像理解、生成和編輯能力可與 GPT-4o 媲美。該模型融合了 MLLMs 的文本建模與擴散模型的圖像渲染技術,并采用獨特的高維特征空間建模方式,有效解決了傳統自回歸模型在推理時易出現的誤差累積問題。通過分別訓練自回歸和擴散模型,Nexus-Gen 的圖像生成質量得到明顯。此外,它還使用了開源社區提供的 25M 數據進行訓練,以推動 All-to-All 模型的發展。
Nexus-Gen功能特征
1. 圖像理解
精準識別與分析:Nexus-Gen能夠準確理解圖像中的各種元素,包括物體、場景、文字等。例如,在光學字符識別(OCR)任務中,它可以高精度地識別圖像中的文字內容,并理解其語義。
多領域適應性:該模型在多個領域表現出色,涵蓋通用視覺問答、語言理解、計數、代碼解析、數學和科學任務等。例如,在視覺問答任務中,它可以根據圖像內容回答復雜的問題,如“圖中有哪些動物,它們在做什么?”
上下文理解:Nexus-Gen不僅關注圖像本身,還能結合文本描述理解圖像的上下文。例如,當給出一張帶有說明文字的圖像時,它可以根據文本和圖像的結合來更準確地解釋圖像內容。
2. 圖像生成
高質量圖像合成:Nexus-Gen可以生成高質量的圖像,無論是簡單的物體還是復雜的場景。例如,根據文本描述“一只在草地上奔跑的金色獵犬”,它可以生成一張清晰、逼真的圖像。
創意與細節:該模型能夠根據文本提示生成具有創意和細節的圖像。例如,描述“未來城市的夜景,霓虹燈閃爍,飛行汽車穿梭其中”,它可以生成具有未來感和科技感的圖像。
風格化生成:Nexus-Gen支持多種風格的圖像生成,包括寫實風格、卡通風格、油畫風格等。用戶可以通過指定風格來生成符合需求的圖像。
3. 圖像編輯
多樣化編輯操作:Nexus-Gen支持多種圖像編輯操作,包括對象修改、對象添加、對象移除、顏色更改和風格轉換等。例如,用戶可以要求“將這張照片中的紅色花朵改為藍色”,或者“在圖片中添加一只蝴蝶”。
精準控制:該模型能夠根據文本指令精準地進行編輯操作。例如,用戶可以要求“將圖片中的天空換成夕陽背景”,Nexus-Gen能夠準確識別并替換背景。
多步驟編輯流程:Nexus-Gen可以處理復雜的多步驟編輯任務。例如,用戶可以要求“先將圖片中的舊車換成新車,然后將背景改為城市街道”,它能夠依次完成這些操作。
Nexus-Gen應用場景
1. 內容創作
創意設計:設計師可以利用Nexus-Gen快速生成創意圖像,作為設計的起點或靈感來源。例如,在設計廣告海報時,可以根據文案生成初步的視覺效果。
插畫與繪畫:藝術家可以使用該模型生成插畫或繪畫的草圖,然后在此基礎上進行進一步創作。例如,根據故事描述生成插畫草圖,節省創作時間。
2. 廣告與營銷
廣告素材生成:廣告公司可以利用Nexus-Gen快速生成廣告所需的圖像素材。例如,根據廣告文案生成產品展示圖、場景圖等。
個性化廣告:根據用戶的需求和偏好,生成個性化的廣告圖像。例如,根據用戶的興趣生成符合其喜好的產品推薦圖像。
3. 游戲開發
游戲場景與角色生成:游戲開發者可以利用Nexus-Gen生成游戲中的場景和角色。例如,根據游戲劇情描述生成游戲地圖或角色形象。
游戲素材庫擴展:快速生成大量游戲素材,豐富游戲內容。例如,生成不同風格的建筑、道具等。
4. 教育與培訓
教學輔助:教師可以利用Nexus-Gen生成教學所需的圖像,幫助學生更好地理解課程內容。例如,在自然科學教學中生成動植物的圖像。
虛擬實驗室:生成虛擬實驗場景和操作步驟的圖像,幫助學生進行虛擬實驗。例如,生成化學實驗的圖像,展示實驗過程。
5. 娛樂與社交
個性化頭像與圖片:用戶可以根據自己的喜好生成個性化的頭像或圖片,用于社交媒體。例如,生成帶有個人特色的卡通頭像。
創意照片編輯:在社交媒體上分享創意照片編輯作品。例如,將普通照片編輯成具有藝術風格的圖像,增加趣味性。
安裝與使用
安裝步驟
安裝DiffSynth - Studio:從源碼克隆并安裝,命令為git clone https://github.com/modelscope/DiffSynth-Studio.git,進入目錄后執行pip install -e.。
安裝依賴:執行pip install -r requirements.txt。
若要進行微調,安裝ms - swift:pip install ms-swift -U。
準備模型:運行python download_models.py。
功能腳本使用
圖像理解:運行python image_understanding.py。
圖像生成
使用詳細提示進行圖像生成:運行python image_generation.py。
使用Nexus - Gen進行提示潤色并生成圖像:運行python image_generation_with_selfpolish.py。
圖像編輯:運行python image_editing.py。
項目鏈接
論文:https://arxiv.org/pdf/2504.21356
github:https://github.com/modelscope/Nexus-Gen
modelscope:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen
https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40