阿里通義千問發(fā)布新一代視覺語(yǔ)言模型：Qwen2.5-VL

映技派于2025-01-28發(fā)布在Ai產(chǎn)品

阿里Qwen2.5-VL是阿里巴巴通義千問團(tuán)隊(duì)推出的全新的視覺理解模型，該模型具備強(qiáng)大的視覺理解、代理、長(zhǎng)視頻理解及事件捕捉能力，旨在推動(dòng)ai在多領(lǐng)域的應(yīng)用與發(fā)展。

Qwen2.5-VL主要功能

視覺理解：Qwen2.5-VL能夠精準(zhǔn)識(shí)別圖像中的常見物體，如花、鳥、魚和昆蟲，并且可以分析圖像中的文本、圖表、圖標(biāo)、圖形和布局。這使得它在處理視覺信息時(shí)表現(xiàn)出色，能夠?yàn)橛脩籼峁┰敿?xì)的圖像分析結(jié)果。

視頻理解：該模型突破性地支持超過1小時(shí)的視頻理解，能夠在視頻中識(shí)別和解析具體事件。這一功能使得Qwen2.5-VL在視頻內(nèi)容分析和處理方面具有顯著優(yōu)勢(shì)。

動(dòng)態(tài)推理能力：Qwen2.5-VL具備動(dòng)態(tài)推理能力，能夠根據(jù)視覺環(huán)境和文本指令進(jìn)行復(fù)雜的決策和操作。這使得它可以作為一個(gè)AI視覺智能體，直接操控手機(jī)和電腦等設(shè)備。

多尺寸版本：Qwen2.5-VL提供了3B、7B和72B三個(gè)不同規(guī)模的模型，用戶可以根據(jù)需求選擇合適的版本，以滿足不同的計(jì)算資源和應(yīng)用場(chǎng)景。

阿里通義千問發(fā)布新一代視覺語(yǔ)言模型：Qwen2.5-VL.webp

主要特性

多尺寸版本

提供3B、7B和72B三個(gè)不同參數(shù)量的版本，分別適用于不同的應(yīng)用場(chǎng)景和硬件配置。

3B 版本：適合移動(dòng)端和其他資源受限的環(huán)境。
7B 版本：平衡性能和資源消耗，適用于多數(shù)應(yīng)用場(chǎng)景。
72B 版本：最高性能版本，適用于需要高精度和強(qiáng)大功能的應(yīng)用。

先進(jìn)功能

視覺定位能力：能夠精確識(shí)別圖像中的對(duì)象，并以坐標(biāo)形式返回位置信息。
通用圖像識(shí)別：不僅能識(shí)別常見的物體（如花、鳥、魚），還能分析圖像中的文本、圖表、圖標(biāo)等元素。
文檔解析：顯著提高了對(duì)文檔和表格的理解能力，特別是在學(xué)術(shù)問題解答、數(shù)學(xué)能力和文檔驗(yàn)證等方面表現(xiàn)出色。
視頻理解：支持長(zhǎng)時(shí)間視頻（可達(dá)小時(shí)級(jí)別）的理解，具備秒級(jí)事件定位能力，能夠總結(jié)視頻要點(diǎn)并提取關(guān)鍵信息。
視覺Agent：無(wú)需特定任務(wù)微調(diào)就能操作電腦和手機(jī)，執(zhí)行復(fù)雜的推理和決策任務(wù)。
文字識(shí)別與理解：增強(qiáng)了OCR識(shí)別能力，支持多場(chǎng)景、多語(yǔ)言和多方向的文字識(shí)別及信息抽取。

阿里通義千問發(fā)布新一代視覺語(yǔ)言模型：Qwen2.5-VL.webp

改進(jìn)之處

時(shí)空感知能力：增強(qiáng)了模型對(duì)時(shí)間和空間尺度的感知能力，使其更好地理解和處理不同類型的數(shù)據(jù)。
網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化：引入了窗口注意力機(jī)制，減少計(jì)算負(fù)擔(dān)，提高模型效率。
動(dòng)態(tài)分辨率：使用原生動(dòng)態(tài)分辨率的ViT，確保模型保持原生分辨率的同時(shí)降低計(jì)算壓力。

性能表現(xiàn)

多項(xiàng)基準(zhǔn)測(cè)試領(lǐng)先：在多個(gè)領(lǐng)域的基準(zhǔn)測(cè)試中展現(xiàn)出優(yōu)異的表現(xiàn)，尤其是在文檔理解、視覺問答、視頻理解和視覺Agent等多個(gè)任務(wù)中超越了同類競(jìng)爭(zhēng)模型。

具體案例：

文檔理解：在DocVQA等任務(wù)中表現(xiàn)出色。
視頻理解：能夠準(zhǔn)確理解長(zhǎng)達(dá)幾小時(shí)的視頻內(nèi)容，并快速定位和摘要重要事件。
視覺Agent：無(wú)需額外調(diào)整即可執(zhí)行復(fù)雜的自動(dòng)化任務(wù)，如控制設(shè)備和軟件界面。

Qwen2.5-VL應(yīng)用場(chǎng)景

智能客服：Qwen2.5-VL可以應(yīng)用于視頻客服場(chǎng)景，實(shí)時(shí)分析用戶展示的產(chǎn)品圖像或條形碼，并提供相關(guān)商品信息。
金融和商業(yè)領(lǐng)域：該模型支持結(jié)構(gòu)化輸出，適用于發(fā)票、表單等數(shù)據(jù)處理，特別適合金融和商業(yè)領(lǐng)域的應(yīng)用。
教育和培訓(xùn)：在教育領(lǐng)域，Qwen2.5-VL可以用于分析教學(xué)視頻，幫助學(xué)生理解復(fù)雜的概念和內(nèi)容。
醫(yī)療影像分析：該模型的視覺理解能力也可以應(yīng)用于醫(yī)學(xué)影像分析，幫助醫(yī)生更好地解讀影像數(shù)據(jù)。

Qwen2.5-VL模型延續(xù)了上一代Qwen-VL的結(jié)構(gòu)，采用了ViT（視覺變換器）與Qwen2的串聯(lián)結(jié)構(gòu)，支持圖像和視頻的統(tǒng)一輸入。這種設(shè)計(jì)使得模型能夠更好地融合視覺和語(yǔ)言信息，提高對(duì)多模態(tài)數(shù)據(jù)的理解能力。此外，Qwen2.5-VL引入了多模態(tài)旋轉(zhuǎn)位置編碼（M-ROPE），將位置編碼分解為時(shí)間、空間（高度和寬度）三部分，從而增強(qiáng)了模型的多模態(tài)處理和推理能力。該模型還具備任意分辨率圖像識(shí)別的能力，能夠處理不同分辨率和長(zhǎng)寬比的圖像，確保輸入和圖像信息的一致性。

Qwen2.5-VL獲取方式：

開源地址：Hugging Face

Github：Qwen2.5-VL

在線體驗(yàn)：Qwen Chat