我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Qwen-Image:阿里云通義千問團隊開源的圖形海報生成模型

Qwen-Image 是阿里通義千問團隊在 2025 年 8 月 5 日開源的圖像生成基礎模型,參數規模 200 億,采用 MMDiT 架構。它在復雜文本渲染和精準圖像編輯方面表現突出,尤其擅長生成大量精準的中文,也支持中文提示詞,在 LongText-Bench、ChineseWord 等中文專項測試中領先很多。

Qwen-Image:阿里云通義千問團隊開源的圖形海報生成模型

這個模型支持中英雙語,能處理不同字體、超長段落和復雜的圖文布局,可生成海報、ppt 等多種場景的圖像,還能進行風格遷移、增減物體、調整姿態等圖像編輯。它能應用在廣告設計、影視制作、游戲開發、教育培訓等多個行業。用戶可以在 QwenChat(chat.qwen.ai)里選圖像生成功能來體驗,既能生成海報、PPT 頁面、商品宣傳圖等,也能對圖像做各種編輯,給設計師提供了有力工具

主要特性

  • 文本渲染能力強:支持多行布局、段落級文本生成和細節呈現,中英文都能高保真輸出,在 LongText-Bench、ChineseWord 和 TextCraft 等測試中表現很好,中文文本渲染比現有先進模型好很多,能生成不同語種、風格的文字,還能寫毛筆字,或者直接生成帶文本和圖像的 PPT 頁面。

  • 圖像編輯一致性好:通過加強的多任務訓練,編輯時能保持視覺和語義上的連貫,支持風格遷移、增刪改、細節增強、文字編輯、調整人物姿態等操作。

  • 跨基準性能佳:在通用圖像生成的 GenEval、DPG 和 OneIG-Bench,以及圖像編輯的 GEdit、ImgEdit 和 GSO 等多個公開測試中,都取得了頂尖性能。

Qwen-Image:阿里云通義千問團隊開源的圖形海報生成模型

核心組件

  • Qwen2.5-VL 多模態大語言模型:作為條件編碼器,從文本中提取特征,根據系統提示詳細描述物體和背景的顏色、數量、文字等,為圖像生成提供依據,讓生成的內容更精細。

  • Wan-2.1 視頻生成模型的分自編碼器(VAE):相當于圖像分詞器,能把輸入圖像壓縮成緊湊的潛在表示,推理時再解碼還原。團隊凍結了編碼器,只微調解碼器,讓圖像細節更突出。

  • 多模態擴散 Transformer(MMDiT):作為主干擴散模型,在文本引導下處理噪聲和圖像潛在表示的關系,加入多模態可擴展 RoPE 方法,幫助區分圖像和文本信息,既能生成高分辨率圖像,又能準確生成文字。

Qwen-Image技術架構

  • MMDiT 架構:用多模態擴散變換器,實現文本和圖像的深度融合。

  • 單編碼器雙解碼器的 VAE:負責把圖像壓縮成緊湊的潛在表示,生成后再解碼成像素。通過調整重建損失和感知損失的平衡,能逼真還原圖像細節。

  • 多模態可擴展旋轉位置編碼(MSRoPE):把文本信息在圖像網格的 “對角線” 上編碼,既保持文本獨立性,又能利用圖像分辨率縮放的優勢。

Qwen-Image技術架構

訓練策略

  • 采用多階段、漸進式的預訓練:從低分辨率到高分辨率,從通用內容到專門內容,從海量數據到精煉數據逐步訓練。

  • 訓練后期用監督微調(SFT)和強化學習(RL):用人工精選的高質量數據微調,還通過 DPO 等技術讓模型學習人類偏好。

應用場景

  • 廣告設計:根據品牌風格快速生成高質量圖片,支持風格轉換和細節優化,幫設計師快速試多種效果,滿足客戶需求。

  • 影視制作:用于前期概念圖、場景預設和角色設計,縮短制作周期,降低成本。

  • 電商視覺:商家能快速生成產品展示圖、虛擬試穿圖和營銷素材,提升用戶體驗和購買率。

  • 海報制作:根據文字和設計要求生成有沖擊力、藝術感的海報(如電影、活動海報),適配不同風格和主題。

  • PPT制作:生成企業級PPT頁面,采用星空藍主色調,搭配流動科技線條和微光粒子特效,畫面專業現代,支持多種風格和布局。

性能表現

  • 通用圖像生成:在 GenEval、DPG 和 OneIG-Bench 等測試中表現優秀。

  • 圖像編輯:在 GEdit、ImgEdit 和 GSO 等專業測試中性能頂尖。

  • 文本渲染:在 LongText-Bench、ChineseWord 和 TextCraft 等測試中能力突出,尤其中文文本渲染遠超現有頂尖模型。

Qwen-Image優勢

  • 中文支持更好:專門優化中文,渲染效果比 DALL-E 好很多。

  • 完全免費:不用付費訂閱,還能在本地部署。

  • 開源透明:代碼公開,可自定義修改。

  • 編輯功能更強:支持更多樣的圖像編輯操作。

  • 無使用限制:不受 API 調用次數限制。

Qwen-Image使用方法

環境準備:安裝最新版本的 diffusers。

基礎代碼:

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一個穿著"QWEN"標志T恤的中國美女正拿著黑色馬克筆面向鏡頭微笑。她身后的玻璃板上手寫體寫著"歡迎使用Qwen-Image,一款強大的圖像基礎模型"'''
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + "超清,4K,電影級構圖",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")

硬件要求:推薦用 NVIDIA GPU(8GB 以上顯存),CPU 模式生成速度較慢,但也能使用。

?Qwen-Image官方介紹:https://qwenlm.github.io/zh/blog/qwen-image/

?Qwen-Image模型:https://huggingface.co/Qwen/Qwen-Image

?在線使用:https://chat.qwen.ai/(選輸入框下面的圖像生成)

收藏
最新工具
GridType
GridType

一款網格化字體設計工具。它讓你生成不同類型的網格,在網格里畫字體...

Solitaire Bliss
Solitaire Bliss

一個免費、無限次數的在線單人紙牌游戲網站,主要玩經典單人紙牌游戲...

TalenCat
TalenCat

一家提供在線簡歷制作工具的公司,主要產品TalenCat CV ...

BoardGameArena
BoardGameArena

簡稱BGA,是一個專注于在線桌游的平臺,它通過將傳統的桌面游戲數...

Dogod.io
Dogod.io

一款瀏覽器多人在線實時對戰游戲,主題是“狗狗掄棒子”,畫風魔性搞...

Drive Mad
Drive Mad

Martin Magni 開發的熱門在線駕駛游戲。玩家需要駕駛車...

Fugue
Fugue

icons8旗下的免版稅音樂下載網站,音樂可免費用于非商用場景...

PlayClassic Games
PlayClassic Games

PlayClassic Games 是一個能讓你直接在瀏覽器里玩...

Modelfy 3D
Modelfy 3D

一個能把2D圖片快速變成高質量3D模型的工具,生成的模型最多能有...

DryVocal
DryVocal

一款專業音頻處理工具,主要用于從復雜音頻中提取和增強人聲,特別適...

主站蜘蛛池模板: 长丰县| 星子县| 桓仁| 眉山市| 全椒县| 会同县| 呼伦贝尔市| 福贡县| 茶陵县| 龙里县| 姚安县| 尼勒克县| 靖边县| 湾仔区| 宣城市| 四会市| 龙南县| 福建省| 五指山市| 金溪县| 沧源| 兰州市| 雷州市| 沁源县| 瑞昌市| 晋江市| 南部县| 乐都县| 出国| 徐水县| 永平县| 通河县| 伊川县| 泰州市| 肇州县| 旬邑县| 沂水县| 林周县| 武功县| 新晃| 巴马|