Qwen VLo:阿里巴巴推出的多模態(tài)統(tǒng)一理解與生成模型
Qwen VLo是什么?
Qwen VLo是阿里云通義千問在2025年6月27日推出的多模態(tài)模型,支持圖像生成與編輯、風(fēng)格轉(zhuǎn)換、復(fù)雜指令執(zhí)行、多圖理解生成、圖像檢測標(biāo)注及文本直接生圖等功能。
核心功能
高質(zhì)量生圖與編輯:能根據(jù)文字或圖片提示生成、修改圖像,支持逐步構(gòu)建復(fù)雜場景、實時調(diào)整,可用簡單指令生成多語言圖片。
動態(tài)分辨率適配:采用動態(tài)分辨率技術(shù),可生成適合海報、插畫、網(wǎng)頁橫幅、社交媒體封面等不同場景的圖片。
漸進(jìn)式生成:從左到右、從上到下逐步構(gòu)建圖像,生成中持續(xù)優(yōu)化內(nèi)容,確保畫面和諧統(tǒng)一。
開放指令編輯:支持用自然語言提創(chuàng)意需求,如“改梵高風(fēng)格”“做成19世紀(jì)老照片”“加晴朗天空”,模型能靈活響應(yīng)并輸出符合預(yù)期的結(jié)果。
多語言指令:支持中文、英文等多種語言指令,方便全球用戶使用。
技術(shù)特點(diǎn)
視覺語言深度融合:能理解畫面內(nèi)容并進(jìn)行高質(zhì)量再創(chuàng)作,生成時保持語義一致,細(xì)節(jié)捕捉能力強(qiáng)。
強(qiáng)視覺編輯能力:可處理復(fù)雜編輯指令,在單條指令中完成多類修改,同時確保主體結(jié)構(gòu)和上下文準(zhǔn)確。
應(yīng)用場景
設(shè)計與創(chuàng)意:為設(shè)計師、營銷人員、教育工作者提供工具,支持藝術(shù)風(fēng)格轉(zhuǎn)換、場景重構(gòu)、細(xì)節(jié)優(yōu)化等,助力快速實現(xiàn)創(chuàng)意。
多語言內(nèi)容創(chuàng)作:滿足不同語言背景用戶的內(nèi)容生產(chǎn)需求。
此外,Qwen VLo的輸入和輸出均支持任意分辨率與長寬比的圖片,適配多種使用場景。用戶可實時查看生成過程并調(diào)整。目前該模型仍在預(yù)覽階段。
常見問題
問題1:Qwen VLo在生成能力上比之前的多模態(tài)模型強(qiáng)在哪里?
答:Qwen VLo的優(yōu)勢在于:細(xì)節(jié)捕捉更精準(zhǔn),生成內(nèi)容語義連貫;能響應(yīng)藝術(shù)風(fēng)格轉(zhuǎn)換等創(chuàng)意指令,完成復(fù)雜任務(wù);漸進(jìn)式生成機(jī)制讓視覺效果更好,創(chuàng)作更靈活。
問題2:Qwen VLo能進(jìn)行哪些圖像操作?
答:Qwen VLo可以:直接生成圖像;修改圖像,如換背景、加元素;轉(zhuǎn)換風(fēng)格,比如吉卜力風(fēng)、3D風(fēng);進(jìn)行圖像感知定位,像檢測、分割;處理多操作復(fù)雜指令,完成多步驟任務(wù);生成動態(tài)比例圖像(極端比例功能尚未推出);再理解自身生成內(nèi)容,例如識別動物品種。
問題3:Qwen VLo預(yù)覽階段有哪些局限?
答:預(yù)覽階段,Qwen VLo可能出現(xiàn)生成不準(zhǔn)確、與原圖不符、不符合指令、意圖理解不穩(wěn)定等問題。
博客:https://qwenlm.github.io/blog/qwen-vlo/