VRAG-RL:阿里通義團(tuán)隊(duì)推出的一款基于視覺感知RAG框架
VRAG-RL是什么?
VRAG-RL是阿里巴巴通義團(tuán)隊(duì)最近推出的一款基于視覺感知RAG框架的模型。這款模型在Qwen2.5-VL-3B上性能提升了30%,在Qwen2.5-VL-7B上提升了20%。
VRAG-RL通過強(qiáng)化學(xué)習(xí)訓(xùn)練,讓模型具備多輪思考和推理能力,逐步增強(qiáng)對(duì)視覺語言模型(VLM)的理解力和答案準(zhǔn)確性。它定義了視覺感知?jiǎng)幼骺臻g,使模型能從粗到細(xì)聚焦信息密集區(qū)域,精準(zhǔn)提取關(guān)鍵視覺信息,提升VLM在檢索、推理和理解視覺信息方面的能力。
此外,VRAG-RL具備多模態(tài)檢索和迭代推理能力,通過多輪交互逐步完善對(duì)視覺信息的理解,最終生成準(zhǔn)確且全面的答案。它適用于多種視覺任務(wù),如圖像理解、圖表分析、復(fù)雜布局解析等場景。
傳統(tǒng)RAG方法存在局限性
視覺信息處理能力不足:無法有效解析圖像中的信息,缺乏對(duì)視覺數(shù)據(jù)的理解和推理能力。
固定流程限制動(dòng)態(tài)推理:多采用固定的檢索 - 生成流程,難以在復(fù)雜任務(wù)中動(dòng)態(tài)調(diào)整推理路徑,限制了模型挖掘視覺信息的能力。
檢索效率與推理深度不足:在處理復(fù)雜視覺任務(wù)時(shí),往往無法高效定位關(guān)鍵信息,導(dǎo)致生成結(jié)果不夠精準(zhǔn)。
VRAG-RL的核心創(chuàng)新
視覺感知?jiǎng)幼骺臻g:引入多種視覺感知?jiǎng)幼鳎鐓^(qū)域選擇、裁剪和縮放等,使模型能從粗粒度到細(xì)粒度逐步聚焦信息密集區(qū)域,精準(zhǔn)提取關(guān)鍵視覺信息。這種從粗到細(xì)的感知方式不僅提高了模型對(duì)視覺信息的理解能力,還顯著提升了檢索效率。
強(qiáng)化學(xué)習(xí)框架:通過強(qiáng)化學(xué)習(xí)(RL)優(yōu)化模型的推理和檢索能力。模型與搜索引擎進(jìn)行多輪交互,自主采樣單輪或多輪推理軌跡,并基于樣本進(jìn)行持續(xù)優(yōu)化。
綜合獎(jiǎng)勵(lì)機(jī)制:設(shè)計(jì)了一種綜合獎(jiǎng)勵(lì)函數(shù),包括檢索效率獎(jiǎng)勵(lì)、模式一致性獎(jiǎng)勵(lì)和基于模型的結(jié)果獎(jiǎng)勵(lì)。這種獎(jiǎng)勵(lì)機(jī)制關(guān)注最終結(jié)果,優(yōu)化檢索過程,讓模型更有效地獲取相關(guān)信息。
多專家采樣策略:結(jié)合大規(guī)模模型的推理能力和專家模型的精確標(biāo)注能力,使模型能夠?qū)W習(xí)到更有效的視覺感知策略。
多輪交互訓(xùn)練:基于多輪交互訓(xùn)練策略,模型在與外部環(huán)境的持續(xù)交互中逐步優(yōu)化推理過程,提升推理的穩(wěn)定性和一致性。
VRAG-RL的技術(shù)優(yōu)勢
提升性能:實(shí)驗(yàn)結(jié)果表明,VRAG-RL在多個(gè)視覺語言基準(zhǔn)數(shù)據(jù)集上均取得了顯著優(yōu)于現(xiàn)有方法的性能表現(xiàn)。任務(wù)類型涵蓋從單跳到多跳推理、從純文本理解到圖表識(shí)別和復(fù)雜布局解析等多種視覺豐富場景。
支持多輪交互:能夠在推理階段逐步聚焦于信息密集區(qū)域,實(shí)現(xiàn)從粗到細(xì)的信息獲取。
高效訓(xùn)練:引入了業(yè)界領(lǐng)先的GRPO算法,通過本地部署搜索引擎模擬真實(shí)世界應(yīng)用場景,實(shí)現(xiàn)搜索引擎調(diào)用零成本,模型訓(xùn)練更加高效。
VRAG-RL的應(yīng)用場景
復(fù)雜圖表分析:從財(cái)務(wù)報(bào)表、科學(xué)圖表中提取關(guān)鍵數(shù)據(jù)。
設(shè)計(jì)稿解析:理解和推理設(shè)計(jì)稿中的布局與元素。
文檔檢索:在包含圖像、表格的文檔知識(shí)庫中高效檢索信息。
多模態(tài)問答:結(jié)合文本與圖像進(jìn)行多跳推理,回答復(fù)雜問題。
項(xiàng)目鏈接
GitHub倉庫:https://github.com/Alibaba-NLP/VRAG
HuggingFace模型庫:https://huggingface.co/collections/autumncc/vrag-rl
arXiv技術(shù)論文:https://arxiv.org/pdf/2505.22019