Qwen VLo:阿里巴巴推出的多模態統一理解與生成模型
Qwen VLo是什么?
Qwen VLo是阿里云通義千問在2025年6月27日推出的多模態模型,支持圖像生成與編輯、風格轉換、復雜指令執行、多圖理解生成、圖像檢測標注及文本直接生圖等功能。
核心功能
高質量生圖與編輯:能根據文字或圖片提示生成、修改圖像,支持逐步構建復雜場景、實時調整,可用簡單指令生成多語言圖片。
動態分辨率適配:采用動態分辨率技術,可生成適合海報、插畫、網頁橫幅、社交媒體封面等不同場景的圖片。
漸進式生成:從左到右、從上到下逐步構建圖像,生成中持續優化內容,確保畫面和諧統一。
開放指令編輯:支持用自然語言提創意需求,如“改梵高風格”“做成19世紀老照片”“加晴朗天空”,模型能靈活響應并輸出符合預期的結果。
多語言指令:支持中文、英文等多種語言指令,方便全球用戶使用。
技術特點
視覺語言深度融合:能理解畫面內容并進行高質量再創作,生成時保持語義一致,細節捕捉能力強。
強視覺編輯能力:可處理復雜編輯指令,在單條指令中完成多類修改,同時確保主體結構和上下文準確。
應用場景
設計與創意:為設計師、營銷人員、教育工作者提供工具,支持藝術風格轉換、場景重構、細節優化等,助力快速實現創意。
多語言內容創作:滿足不同語言背景用戶的內容生產需求。
此外,Qwen VLo的輸入和輸出均支持任意分辨率與長寬比的圖片,適配多種使用場景。用戶可實時查看生成過程并調整。目前該模型仍在預覽階段。
常見問題
問題1:Qwen VLo在生成能力上比之前的多模態模型強在哪里?
答:Qwen VLo的優勢在于:細節捕捉更精準,生成內容語義連貫;能響應藝術風格轉換等創意指令,完成復雜任務;漸進式生成機制讓視覺效果更好,創作更靈活。
問題2:Qwen VLo能進行哪些圖像操作?
答:Qwen VLo可以:直接生成圖像;修改圖像,如換背景、加元素;轉換風格,比如吉卜力風、3D風;進行圖像感知定位,像檢測、分割;處理多操作復雜指令,完成多步驟任務;生成動態比例圖像(極端比例功能尚未推出);再理解自身生成內容,例如識別動物品種。
問題3:Qwen VLo預覽階段有哪些局限?
答:預覽階段,Qwen VLo可能出現生成不準確、與原圖不符、不符合指令、意圖理解不穩定等問題。
博客:https://qwenlm.github.io/blog/qwen-vlo/