Qwen VLo:阿里巴巴推出的多模態(tài)統(tǒng)一理解與生成模型
Qwen VLo是什么?
Qwen VLo是阿里云通義千問(wèn)在2025年6月27日推出的多模態(tài)模型,支持圖像生成與編輯、風(fēng)格轉(zhuǎn)換、復(fù)雜指令執(zhí)行、多圖理解生成、圖像檢測(cè)標(biāo)注及文本直接生圖等功能。

核心功能
高質(zhì)量生圖與編輯:能根據(jù)文字或圖片提示生成、修改圖像,支持逐步構(gòu)建復(fù)雜場(chǎng)景、實(shí)時(shí)調(diào)整,可用簡(jiǎn)單指令生成多語(yǔ)言圖片。
動(dòng)態(tài)分辨率適配:采用動(dòng)態(tài)分辨率技術(shù),可生成適合海報(bào)、插畫、網(wǎng)頁(yè)橫幅、社交媒體封面等不同場(chǎng)景的圖片。
漸進(jìn)式生成:從左到右、從上到下逐步構(gòu)建圖像,生成中持續(xù)優(yōu)化內(nèi)容,確保畫面和諧統(tǒng)一。
開放指令編輯:支持用自然語(yǔ)言提創(chuàng)意需求,如“改梵高風(fēng)格”“做成19世紀(jì)老照片”“加晴朗天空”,模型能靈活響應(yīng)并輸出符合預(yù)期的結(jié)果。
多語(yǔ)言指令:支持中文、英文等多種語(yǔ)言指令,方便全球用戶使用。
技術(shù)特點(diǎn)
視覺語(yǔ)言深度融合:能理解畫面內(nèi)容并進(jìn)行高質(zhì)量再創(chuàng)作,生成時(shí)保持語(yǔ)義一致,細(xì)節(jié)捕捉能力強(qiáng)。
強(qiáng)視覺編輯能力:可處理復(fù)雜編輯指令,在單條指令中完成多類修改,同時(shí)確保主體結(jié)構(gòu)和上下文準(zhǔn)確。
應(yīng)用場(chǎng)景
設(shè)計(jì)與創(chuàng)意:為設(shè)計(jì)師、營(yíng)銷人員、教育工作者提供工具,支持藝術(shù)風(fēng)格轉(zhuǎn)換、場(chǎng)景重構(gòu)、細(xì)節(jié)優(yōu)化等,助力快速實(shí)現(xiàn)創(chuàng)意。
多語(yǔ)言內(nèi)容創(chuàng)作:滿足不同語(yǔ)言背景用戶的內(nèi)容生產(chǎn)需求。
此外,Qwen VLo的輸入和輸出均支持任意分辨率與長(zhǎng)寬比的圖片,適配多種使用場(chǎng)景。用戶可實(shí)時(shí)查看生成過(guò)程并調(diào)整。目前該模型仍在預(yù)覽階段。
常見問(wèn)題
問(wèn)題1:Qwen VLo在生成能力上比之前的多模態(tài)模型強(qiáng)在哪里?
答:Qwen VLo的優(yōu)勢(shì)在于:細(xì)節(jié)捕捉更精準(zhǔn),生成內(nèi)容語(yǔ)義連貫;能響應(yīng)藝術(shù)風(fēng)格轉(zhuǎn)換等創(chuàng)意指令,完成復(fù)雜任務(wù);漸進(jìn)式生成機(jī)制讓視覺效果更好,創(chuàng)作更靈活。
問(wèn)題2:Qwen VLo能進(jìn)行哪些圖像操作?
答:Qwen VLo可以:直接生成圖像;修改圖像,如換背景、加元素;轉(zhuǎn)換風(fēng)格,比如吉卜力風(fēng)、3D風(fēng);進(jìn)行圖像感知定位,像檢測(cè)、分割;處理多操作復(fù)雜指令,完成多步驟任務(wù);生成動(dòng)態(tài)比例圖像(極端比例功能尚未推出);再理解自身生成內(nèi)容,例如識(shí)別動(dòng)物品種。
問(wèn)題3:Qwen VLo預(yù)覽階段有哪些局限?
答:預(yù)覽階段,Qwen VLo可能出現(xiàn)生成不準(zhǔn)確、與原圖不符、不符合指令、意圖理解不穩(wěn)定等問(wèn)題。
博客:https://qwenlm.github.io/blog/qwen-vlo/
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










