騰訊混元DiT:騰訊推出的一款文本到圖像生成模型
混元DiT是騰訊最新開源的文生圖ai模型,采用了與Sora、Stable Diffusion 3相同的DiT(Diffusion With Transformer)架構,支持中英文雙語輸入及理解。能理解中文和英文,還能抓住語言中的細微差別,如語境、句式復雜性等。還支持通過多輪對話與模型互動,逐步細化和調整圖像內容。混元DiT支持生成不同分辨率的圖像。
混元DiT填補了中文原生DiT文生圖架構的缺失,有助于更多的開發者和創作者參與進來,一起探索、共創基于DiT架構的視覺生成。此外,混元DiT還被描述為首個中文原生的DiT架構,支持中英文雙語輸入及理解,參數量達到15億。
混元DiT的功能與優化:
支持中英雙語文本生成:混元DiT特別設計以處理中英雙語文本,能夠根據詳細的文本提示生成高分辨率、高質量的圖像。
長文本理解能力:在算法層面上,混元DiT優化了模型的長文本理解能力,支持最多256字符的內容輸入,同時實現了多輪生圖和對話能力,以達到更滿意的效果。
多模態視覺生成:混元DiT不僅可以用于文生圖,還能作為視頻等多模態視覺生成的基礎,這表明其具備強大的視覺生成能力。
網絡架構創新:采用了創新的網絡架構,結合了雙語CLIP和多語言T5編碼器,通過精心設計的數據管道進行訓練和優化,支持多輪對話,能夠根據上下文生成并完善圖像。
開源與商用:混元DiT全面開源,并允許免費商用,這為用戶提供了更多的靈活性和使用場景。
技術融合:混元DiT融合了擴散模型和Transformer架構的優勢,提供了強大的視覺生成能力,這種架構不僅可以用于文生圖,還能用作視頻和其他多模態視覺內容。
混元DiT應用領域:
文生圖像生成:混元DiT模型特別設計用于處理中英雙語文本,并能根據詳細的文本提示生成高分辨率、高質量的圖像。
視頻和3D內容生成:混元DiT不僅可支持文生圖,也可作為視頻等多模態視覺生成的基礎。
內部業務接入:超過180個騰訊內部業務已接入騰訊混元,包括騰訊會議、騰訊文檔、企業微信、騰訊廣告和微信搜一搜等。
中文原生支持:混元DiT是業界最早探索并應用大語言模型結合DiT結構的文生圖模型之一,支持中英文雙語輸入及理解,參數量15億。
多輪對話和完善圖像:混元DiT能夠與用戶進行多輪對話,根據上下文生成并完善圖像。
騰訊混元DiT項目地址:https://github.com/Tencent/HunyuanDiT
騰訊混元DiT項目官網:https://dit.hunyuan.tencent.com/