DeepSeek深夜發(fā)布全新多模態(tài)AI模型:Janus-Pro與JanusFlow
DeepSeek 發(fā)布的 Janus-Pro 和 JanusFlow 是多模態(tài) ai 領(lǐng)域的重大突破,這兩款模型的設(shè)計(jì)旨在提升圖像理解與生成的能力,尤其是在文本到圖像的生成任務(wù)中表現(xiàn)出色。
Janus-Pro模型
Janus-Pro是一款統(tǒng)一的多模態(tài)理解與生成框架。其架構(gòu)通過解耦視覺編碼的方式,顯著提升了模型在不同任務(wù)中的適配性與性能。根據(jù)DeepSeek的報(bào)告,Janus-Pro在多個(gè)基準(zhǔn)測試中表現(xiàn)優(yōu)異,尤其是在文生圖的生成能力上,其準(zhǔn)確率達(dá)到了80%和84.2%,超越了OpenAI的DALL-E 3等競爭對手。
此外,Janus-Pro的設(shè)計(jì)還注重靈活性與高效性,能夠適配視覺問答、圖像標(biāo)注等多種多模態(tài)場景。這使得它在實(shí)際應(yīng)用中具有廣泛的潛力,尤其是在需要高質(zhì)量圖像生成的領(lǐng)域,如廣告、游戲和藝術(shù)創(chuàng)作等。
JanusFlow模型
與Janus-Pro相輔相成,JanusFlow則是一款通過生成流與自回歸語言模型融合的框架。它的設(shè)計(jì)理念是實(shí)現(xiàn)視覺理解與生成的統(tǒng)一,能夠在理解任務(wù)中表現(xiàn)出色,同時(shí)生成高質(zhì)量的圖像。JanusFlow的極簡架構(gòu)使得其在訓(xùn)練和推理過程中更加高效,適合大規(guī)模應(yīng)用。
技術(shù)亮點(diǎn)與創(chuàng)新
Janus-Pro:
解耦視覺編碼:通過將視覺編碼過程拆分為獨(dú)立的路徑,分別處理多模態(tài)理解與生成任務(wù),解決了傳統(tǒng)模型中視覺編碼器在兩種任務(wù)中的功能沖突,顯著提升了模型的適配性與性能。
統(tǒng)一 Transformer 架構(gòu):采用單一的 Transformer 架構(gòu)處理多模態(tài)任務(wù),簡化了模型設(shè)計(jì)并提升了擴(kuò)展能力。
高性能表現(xiàn):在 GenEval 和 DPG-Bench 基準(zhǔn)測試中,Janus-Pro-7B 的準(zhǔn)確率分別達(dá)到 80% 和 84.2%,超越了 OpenAI 的 DALL-E 3 和 Stable Diffusion。
JanusFlow:
生成流與語言模型融合:通過將生成流(Rectified Flow)與自回歸語言模型結(jié)合,JanusFlow 實(shí)現(xiàn)了極簡但強(qiáng)大的多模態(tài)框架,無需復(fù)雜改造即可生成高質(zhì)量圖像。
高靈活性與可擴(kuò)展性:支持多任務(wù)擴(kuò)展,成為統(tǒng)一多模態(tài)框架的優(yōu)秀選擇。
性能表現(xiàn)
圖像生成能力:Janus-Pro 和 JanusFlow 均支持 384x384 分辨率的圖像生成,生成質(zhì)量高,適配多種應(yīng)用場景。
多模態(tài)理解能力:在視覺問答、圖像標(biāo)注等任務(wù)中,兩款模型的表現(xiàn)均超越了任務(wù)專用模型,展現(xiàn)了強(qiáng)大的通用性。
基準(zhǔn)測試成績:在 GenEval 和 DPG-Bench 測試中,Janus-Pro-7B 的表現(xiàn)顯著優(yōu)于 DALL-E 3 和 Stable Diffusion,成為當(dāng)前多模態(tài)領(lǐng)域的領(lǐng)先者。
模型名稱 | 多模態(tài)理解性能 | 圖像生成能力 | 靈活性與擴(kuò)展性 |
---|---|---|---|
Janus-Pro | 超越專用模型,解耦更高效 | 優(yōu)異生成能力,支持多場景應(yīng)用 | 高度靈活,架構(gòu)統(tǒng)一設(shè)計(jì) |
JanusFlow | 大語言模型與生成流高效融合 | 高質(zhì)量生成,適配 384x384 分辨率 | 極簡架構(gòu),靈活性更強(qiáng) |
Janus-Pro和JanusFlow模型的發(fā)布不僅在技術(shù)上具有創(chuàng)新性,還在性能上展現(xiàn)了顯著的優(yōu)勢。