騰訊混元DiT:騰訊推出的一款文本到圖像生成模型
混元DiT是騰訊最新開源的文生圖ai模型,采用了與Sora、Stable Diffusion 3相同的DiT(Diffusion With Transformer)架構(gòu),支持中英文雙語輸入及理解。能理解中文和英文,還能抓住語言中的細(xì)微差別,如語境、句式復(fù)雜性等。還支持通過多輪對話與模型互動(dòng),逐步細(xì)化和調(diào)整圖像內(nèi)容?;煸狣iT支持生成不同分辨率的圖像。
混元DiT填補(bǔ)了中文原生DiT文生圖架構(gòu)的缺失,有助于更多的開發(fā)者和創(chuàng)作者參與進(jìn)來,一起探索、共創(chuàng)基于DiT架構(gòu)的視覺生成。此外,混元DiT還被描述為首個(gè)中文原生的DiT架構(gòu),支持中英文雙語輸入及理解,參數(shù)量達(dá)到15億。
混元DiT的功能與優(yōu)化:
支持中英雙語文本生成:混元DiT特別設(shè)計(jì)以處理中英雙語文本,能夠根據(jù)詳細(xì)的文本提示生成高分辨率、高質(zhì)量的圖像。
長文本理解能力:在算法層面上,混元DiT優(yōu)化了模型的長文本理解能力,支持最多256字符的內(nèi)容輸入,同時(shí)實(shí)現(xiàn)了多輪生圖和對話能力,以達(dá)到更滿意的效果。
多模態(tài)視覺生成:混元DiT不僅可以用于文生圖,還能作為視頻等多模態(tài)視覺生成的基礎(chǔ),這表明其具備強(qiáng)大的視覺生成能力。
網(wǎng)絡(luò)架構(gòu)創(chuàng)新:采用了創(chuàng)新的網(wǎng)絡(luò)架構(gòu),結(jié)合了雙語CLIP和多語言T5編碼器,通過精心設(shè)計(jì)的數(shù)據(jù)管道進(jìn)行訓(xùn)練和優(yōu)化,支持多輪對話,能夠根據(jù)上下文生成并完善圖像。
開源與商用:混元DiT全面開源,并允許免費(fèi)商用,這為用戶提供了更多的靈活性和使用場景。
技術(shù)融合:混元DiT融合了擴(kuò)散模型和Transformer架構(gòu)的優(yōu)勢,提供了強(qiáng)大的視覺生成能力,這種架構(gòu)不僅可以用于文生圖,還能用作視頻和其他多模態(tài)視覺內(nèi)容。
混元DiT應(yīng)用領(lǐng)域:
文生圖像生成:混元DiT模型特別設(shè)計(jì)用于處理中英雙語文本,并能根據(jù)詳細(xì)的文本提示生成高分辨率、高質(zhì)量的圖像。
視頻和3D內(nèi)容生成:混元DiT不僅可支持文生圖,也可作為視頻等多模態(tài)視覺生成的基礎(chǔ)。
內(nèi)部業(yè)務(wù)接入:超過180個(gè)騰訊內(nèi)部業(yè)務(wù)已接入騰訊混元,包括騰訊會(huì)議、騰訊文檔、企業(yè)微信、騰訊廣告和微信搜一搜等。
中文原生支持:混元DiT是業(yè)界最早探索并應(yīng)用大語言模型結(jié)合DiT結(jié)構(gòu)的文生圖模型之一,支持中英文雙語輸入及理解,參數(shù)量15億。
多輪對話和完善圖像:混元DiT能夠與用戶進(jìn)行多輪對話,根據(jù)上下文生成并完善圖像。
騰訊混元DiT項(xiàng)目地址:https://github.com/Tencent/HunyuanDiT
騰訊混元DiT項(xiàng)目官網(wǎng):https://dit.hunyuan.tencent.com/