JanusFlow
JanusFlow簡(jiǎn)介
DeepSeek團(tuán)隊(duì)推出的一款先進(jìn)的多模態(tài)人工智能模型,目的在于統(tǒng)一視覺(jué)理解與生成任務(wù)。它通過(guò)結(jié)合自回歸語(yǔ)言模型(LLM)和校正流(Rectified Flow)技術(shù),實(shí)現(xiàn)了在單一模型中同時(shí)處理圖像理解和文本到圖像生成的能力。
核心功能
圖像理解:能夠分析圖像內(nèi)容并生成相關(guān)描述,支持視覺(jué)問(wèn)答、圖像標(biāo)注等任務(wù)。
文本到圖像生成:根據(jù)文本描述生成高質(zhì)量的圖像,適用于創(chuàng)意設(shè)計(jì)、廣告等領(lǐng)域。
多模態(tài)任務(wù)統(tǒng)一:將理解和生成任務(wù)整合到一個(gè)模型中,避免了傳統(tǒng)方法中需要維護(hù)多個(gè)獨(dú)立模型的復(fù)雜性。
端到端訓(xùn)練:該模型通過(guò)將視覺(jué)編碼器與自回歸語(yǔ)言模型的理解框架和基于Rectified Flow的生成框架直接融合,實(shí)現(xiàn)了端到端的訓(xùn)練。
技術(shù)特點(diǎn)
自回歸語(yǔ)言模型與校正流結(jié)合:通過(guò)將自回歸語(yǔ)言模型與校正流技術(shù)融合,JanusFlow 實(shí)現(xiàn)了高效的圖像生成和理解能力。校正流是一種基于常微分方程(ODE)的生成建模方法,簡(jiǎn)化了訓(xùn)練過(guò)程并提高了生成質(zhì)量。
解耦的視覺(jué)編碼器:JanusFlow 為理解和生成任務(wù)分別設(shè)計(jì)了獨(dú)立的視覺(jué)編碼器,避免了任務(wù)間的干擾,同時(shí)通過(guò)表示對(duì)齊策略增強(qiáng)了語(yǔ)義一致性。
無(wú)分類器引導(dǎo)(CFG):在圖像生成過(guò)程中,JanusFlow 使用 CFG 技術(shù)來(lái)控制生成圖像與文本條件的對(duì)齊,從而提升圖像質(zhì)量。
性能表現(xiàn)
圖像生成:在 GenEval 和 DPG-Bench 測(cè)試中,JanusFlow 的表現(xiàn)優(yōu)于 Stable Diffusion v1.5 和 SDXL,生成圖像的語(yǔ)義準(zhǔn)確性和視覺(jué)質(zhì)量均達(dá)到領(lǐng)先水平29。
圖像理解:在 MMBench、SeedBench 和 GQA 等視覺(jué)理解任務(wù)中,JanusFlow 的得分分別為 74.9、70.5 和 60.3,超越了多個(gè)同規(guī)模的專業(yè)模型。
技術(shù)優(yōu)勢(shì)
JanusFlow的設(shè)計(jì)理念在于通過(guò)簡(jiǎn)約的架構(gòu)實(shí)現(xiàn)復(fù)雜的功能,利用預(yù)訓(xùn)練的視覺(jué)編碼器與大型語(yǔ)言模型的結(jié)合,提升了模型的整體性能和效率。這種創(chuàng)新的架構(gòu)使得JanusFlow在多模態(tài)ai領(lǐng)域中處于領(lǐng)先地位,具備廣泛的應(yīng)用潛力。
訓(xùn)練策略
適配階段:隨機(jī)初始化組件并進(jìn)行初步訓(xùn)練,使新模塊與預(yù)訓(xùn)練模型有效配合。
統(tǒng)一預(yù)訓(xùn)練:結(jié)合多模態(tài)理解、圖像生成和純文本數(shù)據(jù)進(jìn)行訓(xùn)練,逐步增加生成數(shù)據(jù)的比例。
監(jiān)督微調(diào)(SFT):使用指令調(diào)優(yōu)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),進(jìn)一步提升其響應(yīng)能力和生成質(zhì)量。
應(yīng)用場(chǎng)景
創(chuàng)意設(shè)計(jì):根據(jù)文本描述生成高質(zhì)量圖像,支持廣告、游戲開(kāi)發(fā)等場(chǎng)景。
視覺(jué)問(wèn)答:在教育、博物館導(dǎo)覽等領(lǐng)域,提供基于圖像的智能問(wèn)答服務(wù)。
多模態(tài)內(nèi)容創(chuàng)作:結(jié)合文本和圖像生成新的媒體內(nèi)容,適用于社交媒體、新聞報(bào)道等。
開(kāi)源與資源
JanusFlow 是一個(gè)開(kāi)源項(xiàng)目,相關(guān)資源包括:
GitHub 倉(cāng)庫(kù):https://github.com/deepseek-ai/Janus
模型下載:Hugging Face
在線體驗(yàn):Demo
技術(shù)論文:arXiv
相關(guān)資訊: