ViDoRAG:一款面向視覺文檔理解的檢索增強生成(RAG)系統
ViDoRAG是什么?
ViDoRAG是阿里巴巴通義實驗室聯合中國科學技術大學和上海交通大學推出的視覺文檔理解檢索增強生成(RAG)系統。它利用多模態混合檢索和多智能體迭代推理機制,讓視覺文檔處理的準確性和效率都得到明顯提升,人話就是說,它支持圖片類文檔的檢索,讓你可以在一堆包含圖片文檔中找到,比如“這個產品是什么顏色”或者“這文章講了啥?”。
ViDoRAG框架
ViDoRAG框架重點在于多智能體協作和動態迭代推理,主要有這些關鍵部分:
多模態混合檢索:把視覺和文本特征結合起來,借助高斯混合模型(GMM)動態調整檢索策略,更精準地找到關鍵信息。
多智能體協作:
Seeker Agent:能快速篩選出相關的圖像或文檔片段,給出全局線索。
Inspector Agent:對篩選出來的結果進行細致審查,生成初步答案。
Answer Agent:整合初步答案,檢查其準確性和一致性后,生成最終答案。
動態檢索策略:利用GMM動態調整檢索結果的數量,降低計算量,提高檢索效率。
功能特點
1. 多模態混合檢索:
視覺與文本雙通道檢索:ViDoRAG能同時處理視覺(圖像)和文本信息進行檢索,更全面地理解文檔內容。
高斯混合模型(GMM)融合:用GMM動態調整視覺和文本檢索結果的權重,根據查詢特點選擇最優檢索策略,減少噪聲和計算量。
2. 多智能體協作推理:
Seeker Agent:快速篩選相關文檔或圖像片段,縮小搜索范圍。
Inspector Agent:詳細審查篩選出的片段,提取關鍵信息生成初步答案。
Answer Agent:整合初步答案并驗證,生成最終答案。
動態迭代推理:多智能體不斷協作、迭代,讓答案越來越好。
3. 動態檢索策略:
自適應檢索數量:ViDoRAG通過GMM動態調整檢索結果數量,避免固定數量檢索帶來的問題。
高效檢索流程:能根據查詢和文檔集合的相似度分布自動優化檢索策略,提高檢索效率。
4. 復雜文檔理解能力:
視覺豐富文檔支持:可以處理包含文本、圖表、表格和復雜版式的文檔。
多跳推理能力:能處理單跳和多跳推理任務,應對需要跨文檔理解的復雜查詢。
5. 高準確率與性能:
高準確率:在ViDoSeek基準數據集上準確率達到79.4%,比其他基線方法好很多。
魯棒性:多智能體協作和動態檢索策略讓ViDoRAG處理噪聲數據和復雜場景時表現穩定。
應用場景
視覺文檔處理:適合處理學術文獻、報告、手冊等視覺豐富文檔的場景。
問答系統:可作為問答系統的核心模塊,快速準確回答問題。
智能辦公:能幫用戶快速提取文檔關鍵信息,提高工作效率 。
GitHub倉庫:https://github.com/Alibaba-NLP/ViDoRAG