Qwen VLo：阿里巴巴推出的多模態(tài)統(tǒng)一理解與生成模型

Qwen VLo于2025-06-28發(fā)布在Ai產(chǎn)品

Qwen VLo是什么？

Qwen VLo是阿里云通義千問(wèn)在2025年6月27日推出的多模態(tài)模型，支持圖像生成與編輯、風(fēng)格轉(zhuǎn)換、復(fù)雜指令執(zhí)行、多圖理解生成、圖像檢測(cè)標(biāo)注及文本直接生圖等功能。

核心功能

高質(zhì)量生圖與編輯：能根據(jù)文字或圖片提示生成、修改圖像，支持逐步構(gòu)建復(fù)雜場(chǎng)景、實(shí)時(shí)調(diào)整，可用簡(jiǎn)單指令生成多語(yǔ)言圖片。
動(dòng)態(tài)分辨率適配：采用動(dòng)態(tài)分辨率技術(shù)，可生成適合海報(bào)、插畫、網(wǎng)頁(yè)橫幅、社交媒體封面等不同場(chǎng)景的圖片。
漸進(jìn)式生成：從左到右、從上到下逐步構(gòu)建圖像，生成中持續(xù)優(yōu)化內(nèi)容，確保畫面和諧統(tǒng)一。
開放指令編輯：支持用自然語(yǔ)言提創(chuàng)意需求，如“改梵高風(fēng)格”“做成19世紀(jì)老照片”“加晴朗天空”，模型能靈活響應(yīng)并輸出符合預(yù)期的結(jié)果。
多語(yǔ)言指令：支持中文、英文等多種語(yǔ)言指令，方便全球用戶使用。

技術(shù)特點(diǎn)

視覺語(yǔ)言深度融合：能理解畫面內(nèi)容并進(jìn)行高質(zhì)量再創(chuàng)作，生成時(shí)保持語(yǔ)義一致，細(xì)節(jié)捕捉能力強(qiáng)。
強(qiáng)視覺編輯能力：可處理復(fù)雜編輯指令，在單條指令中完成多類修改，同時(shí)確保主體結(jié)構(gòu)和上下文準(zhǔn)確。

應(yīng)用場(chǎng)景

設(shè)計(jì)與創(chuàng)意：為設(shè)計(jì)師、營(yíng)銷人員、教育工作者提供工具，支持藝術(shù)風(fēng)格轉(zhuǎn)換、場(chǎng)景重構(gòu)、細(xì)節(jié)優(yōu)化等，助力快速實(shí)現(xiàn)創(chuàng)意。
多語(yǔ)言內(nèi)容創(chuàng)作：滿足不同語(yǔ)言背景用戶的內(nèi)容生產(chǎn)需求。

此外，Qwen VLo的輸入和輸出均支持任意分辨率與長(zhǎng)寬比的圖片，適配多種使用場(chǎng)景。用戶可實(shí)時(shí)查看生成過(guò)程并調(diào)整。目前該模型仍在預(yù)覽階段。

常見問(wèn)題

問(wèn)題1：Qwen VLo在生成能力上比之前的多模態(tài)模型強(qiáng)在哪里？

答：Qwen VLo的優(yōu)勢(shì)在于：細(xì)節(jié)捕捉更精準(zhǔn)，生成內(nèi)容語(yǔ)義連貫；能響應(yīng)藝術(shù)風(fēng)格轉(zhuǎn)換等創(chuàng)意指令，完成復(fù)雜任務(wù)；漸進(jìn)式生成機(jī)制讓視覺效果更好，創(chuàng)作更靈活。

問(wèn)題2：Qwen VLo能進(jìn)行哪些圖像操作？

答：Qwen VLo可以：直接生成圖像；修改圖像，如換背景、加元素；轉(zhuǎn)換風(fēng)格，比如吉卜力風(fēng)、3D風(fēng)；進(jìn)行圖像感知定位，像檢測(cè)、分割；處理多操作復(fù)雜指令，完成多步驟任務(wù)；生成動(dòng)態(tài)比例圖像（極端比例功能尚未推出）；再理解自身生成內(nèi)容，例如識(shí)別動(dòng)物品種。

問(wèn)題3：Qwen VLo預(yù)覽階段有哪些局限？

答：預(yù)覽階段，Qwen VLo可能出現(xiàn)生成不準(zhǔn)確、與原圖不符、不符合指令、意圖理解不穩(wěn)定等問(wèn)題。

博客：https://qwenlm.github.io/blog/qwen-vlo/