CogView4:全球首個支持生成漢字的開源文生圖生成模型
CogView4是什么?
CogView4是由智譜AI于2025年3月4日發布的首個支持中英雙語提示詞的開源文生圖ai模型,也是全球首個支持生成漢字的開源文生圖模型,尤其擅長理解和遵循中文提示詞,能在畫面中生成漢字,非常適合做廣告、短視頻創作等。
CogView4主要特點
支持中英雙語輸入:CogView4能夠處理任意長度的中英文提示詞,并生成高質量圖像。
漢字生成能力:該模型可以將漢字自然融入圖像中,特別適合廣告、短視頻等創意領域。
任意分辨率圖像生成:支持生成512×512到2048×2048范圍內的任意分辨率圖像。
強大的語義對齊能力:在DPG-Bench基準測試中,CogView4的綜合評分排名第一,展現了其在復雜語義對齊和指令跟隨方面的卓越性能。
技術優化:采用二維旋轉位置編碼(2D RoPE)和多階段訓練策略,包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練。
顯存優化與高效推理:通過模型CPU卸載和文本編碼器量化等技術,顯著降低了顯存占用。
開源與生態支持:遵循Apache 2.0協議,后續將支持ControlNet、ComfyUI等生態集成,并推出完整的微調工具包。
CogView4技術
架構:基于擴散模型結合Transformer架構,使用60億參數。
文本編碼器:采用雙語GLM-4編碼器,通過中英雙語圖文對進行訓練。
顯存優化:通過模型CPU卸載和文本編碼器量化等技術,降低顯存占用,提升推理效率。
CogView4應用場景
CogView4特別適合需要中文創意的領域,例如廣告設計、短視頻制作、海報創作等,能夠將中英文字符自然融入畫面。
廣告創意:生成帶有特定文字的海報、文案配圖等。
短視頻制作:根據視頻腳本或創意描述生成相應畫面。
藝術創作:輔助藝術家和設計師生成具有特定風格和意境的圖像。
教育領域:生成與教學內容相關的圖像,如古詩文意境圖。
游戲開發:根據游戲劇情和角色設定生成游戲畫面和角色形象。
其他創意領域:如漫畫創作、插畫設計、品牌宣傳等。
CogView4使用
1. 在線體驗
HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B
2. 本地部署
如果需要在本地使用CogView4,可以通過以下步驟進行部署:
獲取模型代碼:訪問CogView4的GitHub倉庫,地址是:https://github.com/THUDM/CogView4。
硬件要求:CogView4模型需要較高的顯存,最低推薦使用12GB顯存的GPU。
安裝依賴:根據GitHub倉庫中的說明,安裝必要的Python依賴和環境。
運行模型:按照倉庫中的指南啟動模型,輸入提示詞生成圖像。
3. 模型微調
智譜計劃推出CogView4的微調工具包,用戶可以根據自己的需求對模型進行定制化訓練。例如,可以針對特定的廣告風格或品牌需求進行微調,以生成更符合需求的圖像。
4. 通過Hugging Face使用
Hugging Face模型庫地址:https://huggingface.co/THUDM/CogView4-6B。