VRAG-RL：阿里通義團隊推出的一款基于視覺感知RAG框架

VRAG-RL于2025-06-03發(fā)布在Ai產(chǎn)品

VRAG-RL是什么？

VRAG-RL是阿里巴巴通義團隊最近推出的一款基于視覺感知RAG框架的模型。這款模型在Qwen2.5-VL-3B上性能提升了30%，在Qwen2.5-VL-7B上提升了20%。

VRAG-RL通過強化學習訓練，讓模型具備多輪思考和推理能力，逐步增強對視覺語言模型（VLM）的理解力和答案準確性。它定義了視覺感知動作空間，使模型能從粗到細聚焦信息密集區(qū)域，精準提取關(guān)鍵視覺信息，提升VLM在檢索、推理和理解視覺信息方面的能力。

此外，VRAG-RL具備多模態(tài)檢索和迭代推理能力，通過多輪交互逐步完善對視覺信息的理解，最終生成準確且全面的答案。它適用于多種視覺任務(wù)，如圖像理解、圖表分析、復雜布局解析等場景。

VRAG-RL：阿里通義團隊推出的一款基于視覺感知RAG框架.webp

視覺感知動作空間：引入多種視覺感知動作，如區(qū)域選擇、裁剪和縮放等，使模型能從粗粒度到細粒度逐步聚焦信息密集區(qū)域，精準提取關(guān)鍵視覺信息。這種從粗到細的感知方式不僅提高了模型對視覺信息的理解能力，還顯著提升了檢索效率。
強化學習框架：通過強化學習（RL）優(yōu)化模型的推理和檢索能力。模型與搜索引擎進行多輪交互，自主采樣單輪或多輪推理軌跡，并基于樣本進行持續(xù)優(yōu)化。
綜合獎勵機制：設(shè)計了一種綜合獎勵函數(shù)，包括檢索效率獎勵、模式一致性獎勵和基于模型的結(jié)果獎勵。這種獎勵機制關(guān)注最終結(jié)果，優(yōu)化檢索過程，讓模型更有效地獲取相關(guān)信息。
多專家采樣策略：結(jié)合大規(guī)模模型的推理能力和專家模型的精確標注能力，使模型能夠?qū)W習到更有效的視覺感知策略。
多輪交互訓練：基于多輪交互訓練策略，模型在與外部環(huán)境的持續(xù)交互中逐步優(yōu)化推理過程，提升推理的穩(wěn)定性和一致性。

提升性能：實驗結(jié)果表明，VRAG-RL在多個視覺語言基準數(shù)據(jù)集上均取得了顯著優(yōu)于現(xiàn)有方法的性能表現(xiàn)。任務(wù)類型涵蓋從單跳到多跳推理、從純文本理解到圖表識別和復雜布局解析等多種視覺豐富場景。
支持多輪交互：能夠在推理階段逐步聚焦于信息密集區(qū)域，實現(xiàn)從粗到細的信息獲取。
高效訓練：引入了業(yè)界領(lǐng)先的GRPO算法，通過本地部署搜索引擎模擬真實世界應(yīng)用場景，實現(xiàn)搜索引擎調(diào)用零成本，模型訓練更加高效。