DeepSeek深夜發(fā)布全新多模態(tài)AI模型：Janus-Pro與JanusFlow

映技派于2025-01-28發(fā)布在Ai產(chǎn)品

DeepSeek 發(fā)布的 Janus-Pro 和 JanusFlow 是多模態(tài) ai 領(lǐng)域的重大突破，這兩款模型的設(shè)計(jì)旨在提升圖像理解與生成的能力，尤其是在文本到圖像的生成任務(wù)中表現(xiàn)出色。

Janus-Pro模型

Janus-Pro是一款統(tǒng)一的多模態(tài)理解與生成框架。其架構(gòu)通過解耦視覺編碼的方式，顯著提升了模型在不同任務(wù)中的適配性與性能。根據(jù)DeepSeek的報(bào)告，Janus-Pro在多個(gè)基準(zhǔn)測試中表現(xiàn)優(yōu)異，尤其是在文生圖的生成能力上，其準(zhǔn)確率達(dá)到了80%和84.2%，超越了OpenAI的DALL-E 3等競爭對手。

此外，Janus-Pro的設(shè)計(jì)還注重靈活性與高效性，能夠適配視覺問答、圖像標(biāo)注等多種多模態(tài)場景。這使得它在實(shí)際應(yīng)用中具有廣泛的潛力，尤其是在需要高質(zhì)量圖像生成的領(lǐng)域，如廣告、游戲和藝術(shù)創(chuàng)作等。

Janus-Pro模型.webp

JanusFlow模型

與Janus-Pro相輔相成，JanusFlow則是一款通過生成流與自回歸語言模型融合的框架。它的設(shè)計(jì)理念是實(shí)現(xiàn)視覺理解與生成的統(tǒng)一，能夠在理解任務(wù)中表現(xiàn)出色，同時(shí)生成高質(zhì)量的圖像。JanusFlow的極簡架構(gòu)使得其在訓(xùn)練和推理過程中更加高效，適合大規(guī)模應(yīng)用。

JanusFlow模型.webp

技術(shù)亮點(diǎn)與創(chuàng)新

Janus-Pro：

解耦視覺編碼：通過將視覺編碼過程拆分為獨(dú)立的路徑，分別處理多模態(tài)理解與生成任務(wù)，解決了傳統(tǒng)模型中視覺編碼器在兩種任務(wù)中的功能沖突，顯著提升了模型的適配性與性能。
統(tǒng)一 Transformer 架構(gòu)：采用單一的 Transformer 架構(gòu)處理多模態(tài)任務(wù)，簡化了模型設(shè)計(jì)并提升了擴(kuò)展能力。
高性能表現(xiàn)：在 GenEval 和 DPG-Bench 基準(zhǔn)測試中，Janus-Pro-7B 的準(zhǔn)確率分別達(dá)到 80% 和 84.2%，超越了 OpenAI 的 DALL-E 3 和 Stable Diffusion。

JanusFlow：

生成流與語言模型融合：通過將生成流（Rectified Flow）與自回歸語言模型結(jié)合，JanusFlow 實(shí)現(xiàn)了極簡但強(qiáng)大的多模態(tài)框架，無需復(fù)雜改造即可生成高質(zhì)量圖像。
高靈活性與可擴(kuò)展性：支持多任務(wù)擴(kuò)展，成為統(tǒng)一多模態(tài)框架的優(yōu)秀選擇。

Janus-Pro與JanusFlow.webp

性能表現(xiàn)

圖像生成能力：Janus-Pro 和 JanusFlow 均支持 384x384 分辨率的圖像生成，生成質(zhì)量高，適配多種應(yīng)用場景。

多模態(tài)理解能力：在視覺問答、圖像標(biāo)注等任務(wù)中，兩款模型的表現(xiàn)均超越了任務(wù)專用模型，展現(xiàn)了強(qiáng)大的通用性。

基準(zhǔn)測試成績：在 GenEval 和 DPG-Bench 測試中，Janus-Pro-7B 的表現(xiàn)顯著優(yōu)于 DALL-E 3 和 Stable Diffusion，成為當(dāng)前多模態(tài)領(lǐng)域的領(lǐng)先者。

模型名稱	多模態(tài)理解性能	圖像生成能力	靈活性與擴(kuò)展性
Janus-Pro	超越專用模型，解耦更高效	優(yōu)異生成能力，支持多場景應(yīng)用	高度靈活，架構(gòu)統(tǒng)一設(shè)計(jì)
JanusFlow	大語言模型與生成流高效融合	高質(zhì)量生成，適配 384x384 分辨率	極簡架構(gòu)，靈活性更強(qiáng)