首頁 > Ai資訊 > Ai產品

Qwen-Image：阿里云通義千問團隊開源的圖形海報生成模型

Qwen-Image于2025-08-06發布在Ai產品

Qwen-Image 是阿里通義千問團隊在 2025 年 8 月 5 日開源的圖像生成基礎模型，參數規模 200 億，采用 MMDiT 架構。它在復雜文本渲染和精準圖像編輯方面表現突出，尤其擅長生成大量精準的中文，也支持中文提示詞，在 LongText-Bench、ChineseWord 等中文專項測試中領先很多。

這個模型支持中英雙語，能處理不同字體、超長段落和復雜的圖文布局，可生成海報、ppt 等多種場景的圖像，還能進行風格遷移、增減物體、調整姿態等圖像編輯。它能應用在廣告設計、影視制作、游戲開發、教育培訓等多個行業。用戶可以在 QwenChat（chat.qwen.ai）里選圖像生成功能來體驗，既能生成海報、PPT 頁面、商品宣傳圖等，也能對圖像做各種編輯，給設計師提供了有力工具。

主要特性

文本渲染能力強：支持多行布局、段落級文本生成和細節呈現，中英文都能高保真輸出，在 LongText-Bench、ChineseWord 和 TextCraft 等測試中表現很好，中文文本渲染比現有先進模型好很多，能生成不同語種、風格的文字，還能寫毛筆字，或者直接生成帶文本和圖像的 PPT 頁面。
圖像編輯一致性好：通過加強的多任務訓練，編輯時能保持視覺和語義上的連貫，支持風格遷移、增刪改、細節增強、文字編輯、調整人物姿態等操作。
跨基準性能佳：在通用圖像生成的 GenEval、DPG 和 OneIG-Bench，以及圖像編輯的 GEdit、ImgEdit 和 GSO 等多個公開測試中，都取得了頂尖性能。

Qwen-Image：阿里云通義千問團隊開源的圖形海報生成模型

核心組件

Qwen2.5-VL 多模態大語言模型：作為條件編碼器，從文本中提取特征，根據系統提示詳細描述物體和背景的顏色、數量、文字等，為圖像生成提供依據，讓生成的內容更精細。
Wan-2.1 視頻生成模型的分自編碼器（VAE）：相當于圖像分詞器，能把輸入圖像壓縮成緊湊的潛在表示，推理時再解碼還原。團隊凍結了編碼器，只微調解碼器，讓圖像細節更突出。
多模態擴散 Transformer（MMDiT）：作為主干擴散模型，在文本引導下處理噪聲和圖像潛在表示的關系，加入多模態可擴展 RoPE 方法，幫助區分圖像和文本信息，既能生成高分辨率圖像，又能準確生成文字。

Qwen-Image技術架構

MMDiT 架構：用多模態擴散變換器，實現文本和圖像的深度融合。
單編碼器雙解碼器的 VAE：負責把圖像壓縮成緊湊的潛在表示，生成后再解碼成像素。通過調整重建損失和感知損失的平衡，能逼真還原圖像細節。
多模態可擴展旋轉位置編碼（MSRoPE）：把文本信息在圖像網格的 “對角線” 上編碼，既保持文本獨立性，又能利用圖像分辨率縮放的優勢。

Qwen-Image技術架構

訓練策略

采用多階段、漸進式的預訓練：從低分辨率到高分辨率，從通用內容到專門內容，從海量數據到精煉數據逐步訓練。
訓練后期用監督微調（SFT）和強化學習（RL）：用人工精選的高質量數據微調，還通過 DPO 等技術讓模型學習人類偏好。

應用場景

廣告設計：根據品牌風格快速生成高質量圖片，支持風格轉換和細節優化，幫設計師快速試多種效果，滿足客戶需求。
影視制作：用于前期概念圖、場景預設和角色設計，縮短制作周期，降低成本。
電商視覺：商家能快速生成產品展示圖、虛擬試穿圖和營銷素材，提升用戶體驗和購買率。
海報制作：根據文字和設計要求生成有沖擊力、藝術感的海報（如電影、活動海報），適配不同風格和主題。
PPT制作：生成企業級PPT頁面，采用星空藍主色調，搭配流動科技線條和微光粒子特效，畫面專業現代，支持多種風格和布局。

性能表現

通用圖像生成：在 GenEval、DPG 和 OneIG-Bench 等測試中表現優秀。
圖像編輯：在 GEdit、ImgEdit 和 GSO 等專業測試中性能頂尖。
文本渲染：在 LongText-Bench、ChineseWord 和 TextCraft 等測試中能力突出，尤其中文文本渲染遠超現有頂尖模型。

Qwen-Image優勢

中文支持更好：專門優化中文，渲染效果比 DALL-E 好很多。
完全免費：不用付費訂閱，還能在本地部署。
開源透明：代碼公開，可自定義修改。
編輯功能更強：支持更多樣的圖像編輯操作。
無使用限制：不受 API 調用次數限制。

Qwen-Image使用方法

環境準備：安裝最新版本的 diffusers。

基礎代碼：

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一個穿著"QWEN"標志T恤的中國美女正拿著黑色馬克筆面向鏡頭微笑。她身后的玻璃板上手寫體寫著"歡迎使用Qwen-Image，一款強大的圖像基礎模型"'''
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + "超清，4K，電影級構圖",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")

硬件要求：推薦用 NVIDIA GPU（8GB 以上顯存），CPU 模式生成速度較慢，但也能使用。

?Qwen-Image官方介紹：https://qwenlm.github.io/zh/blog/qwen-image/

?Qwen-Image模型：https://huggingface.co/Qwen/Qwen-Image

?在線使用：https://chat.qwen.ai/（選輸入框下面的圖像生成）