我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

UniversalRAG:跨模態(tài)檢索的新框架

UniversalRAG是什么?

UniversalRAG 是一種新型的檢索增強生成RAG框架,它能檢索文本、圖像和視頻等多種類型的內(nèi)容,還能根據(jù)需要選擇不同大小的信息塊,比如段落、文檔、視頻片段或完整視頻。這個框架里有個“模態(tài)感知路由器”,可以根據(jù)需求自動挑選最合適的內(nèi)容類型,避免偏向某種特定類型。它還能根據(jù)不同任務(wù)的需要,靈活選擇是否需要訓(xùn)練來優(yōu)化檢索效果。經(jīng)過測試,UniversalRAG 在多個測試場景中都比傳統(tǒng)的系統(tǒng)表現(xiàn)更好,檢索結(jié)果更準(zhǔn)確、更有效。

UniversalRAG:跨模態(tài)檢索的新框架.webp

核心特點

  • 模態(tài)感知路由機制:傳統(tǒng)的 RAG 方法通常將所有模態(tài)的數(shù)據(jù)強行嵌入到一個統(tǒng)一的表示空間中,這會導(dǎo)致“模態(tài)差距”問題,即檢索傾向于偏向與查詢相同模態(tài)的內(nèi)容。UniversalRAG 通過引入模態(tài)感知路由機制,動態(tài)識別最合適的模態(tài)特定語料庫,并在其中執(zhí)行針對性檢索。

  • 多粒度檢索:除了模態(tài)差異,UniversalRAG 還考慮了數(shù)據(jù)粒度(即語料庫中每個條目的大小或單位)。它將每種模態(tài)細(xì)分為多個粒度級別,例如文本分為段落級和文檔級,視頻分為短片段和完整視頻。這種設(shè)計可以根據(jù)查詢的復(fù)雜性和范圍進行精細(xì)化檢索。

  • 多模態(tài)支持:UniversalRAG 支持文本、圖像和視頻等多種模態(tài)的檢索,能夠根據(jù)查詢的需求動態(tài)選擇最合適的模態(tài)。

主要目標(biāo)

  • 多模態(tài)知識檢索:設(shè)計模態(tài)感知路由機制,避免將所有模態(tài)強制納入統(tǒng)一表示空間導(dǎo)致的模態(tài)差距問題,可動態(tài)識別最合適的模態(tài)特定語料庫并進行針對性檢索。

  • 多粒度知識整合:將每種模態(tài)組織到多個粒度級別,如段落級、文檔級、圖像級、剪輯級和視頻級等,能根據(jù)查詢的復(fù)雜性和范圍進行微調(diào)檢索,更靈活地適應(yīng)不同查詢需求。

研究方法

  • 模態(tài)感知路由機制:維護每個模態(tài)的獨立嵌入空間,引入路由模塊。該模塊可根據(jù)查詢的模態(tài)需求,動態(tài)選擇最合適的模態(tài)特定語料庫進行檢索,避免模態(tài)差距。

  • 多粒度語料庫構(gòu)建:考慮數(shù)據(jù)的粒度,將每種模態(tài)組織到多個粒度級別,使系統(tǒng)能根據(jù)查詢的復(fù)雜程度和范圍,選擇合適粒度的知識源,提供更精確全面的答案。

  • 路由模塊實現(xiàn):

  • 無訓(xùn)練路由:利用預(yù)訓(xùn)練的大型語言模型(如 GPT - 4o)的知識和推理能力,通過提供指令和上下文示例,對查詢進行分類并選擇檢索類型。無需額外訓(xùn)練,但可能受限于預(yù)訓(xùn)練模型的偏見和知識邊界。

  • 訓(xùn)練路由:通過構(gòu)造訓(xùn)練數(shù)據(jù)集對路由模塊進行訓(xùn)練,使其能更準(zhǔn)確地預(yù)測給定查詢的最優(yōu)檢索類型,更好地適應(yīng)特定任務(wù)和數(shù)據(jù)集需求。

實驗設(shè)置與結(jié)果

實驗設(shè)置

  • 在多個涵蓋不同模態(tài)(文本、圖像、視頻)和檢索設(shè)置的基準(zhǔn)數(shù)據(jù)集上進行實驗,使用多種大型視覺語言模型(LVLMs)作為生成器,并設(shè)置了多個基線方法進行比較。

實驗結(jié)果

  • UniversalRAG 在所有基準(zhǔn)數(shù)據(jù)集上的平均得分優(yōu)于所有基線方法,在需要多模態(tài)知識的查詢上表現(xiàn)突出。

  • 訓(xùn)練路由模型在路由模塊性能方面優(yōu)于無訓(xùn)練路由模型,但無訓(xùn)練路由模型仍優(yōu)于其他基線方法,表明零樣本路由在 UniversalRAG 框架內(nèi)有效。

  • 支持不同粒度的文本和視頻語料庫能顯著提高 UniversalRAG 的性能,相比沒有粒度控制的模型,其能根據(jù)查詢選擇合適粒度級別,生成更準(zhǔn)確答案。

  • 在跨領(lǐng)域數(shù)據(jù)集上,GPT - 4o 作為無訓(xùn)練路由模型具有最高的路由準(zhǔn)確性和平均問答得分,而訓(xùn)練路由模型因訓(xùn)練數(shù)據(jù)中查詢多樣性不足存在過擬合問題。引入集成路由方法,結(jié)合訓(xùn)練路由和無訓(xùn)練路由的優(yōu)勢,在跨領(lǐng)域數(shù)據(jù)集上實現(xiàn)了更好的性能。

實驗設(shè)置與結(jié)果.webp

優(yōu)勢

  • 提高事實準(zhǔn)確性:通過從多種模態(tài)和粒度的知識源中檢索信息,UniversalRAG 能夠更全面地支持模型的響應(yīng),減少因單一模態(tài)或粒度不足導(dǎo)致的錯誤。

  • 靈活性:該框架能夠靈活處理不同類型的查詢,無論是簡單的事實性問題還是復(fù)雜的分析性問題。

  • 擴展性:通過擴展路由邏輯,UniversalRAG 可以無縫集成新的模態(tài),而無需修改現(xiàn)有的模態(tài)特定檢索器。

項目主頁:https://universalrag.github.io/

論文:https://arxiv.org/abs/2504.20734

收藏
最新工具
Sandspiel
Sandspiel

一款基于細(xì)胞自動機和實時物理的開源像素沙盤游戲,玩家可以在虛擬沙...

印象地圖
印象地圖

這是個可以幫你記住全國省市位置的測試工具。打開網(wǎng)站就能用,選個模...

Sandtris
Sandtris

一款把經(jīng)典俄羅斯方塊和流沙物理效果結(jié)合的休閑游戲。玩家需要利用沙...

Maze Toys
Maze Toys

一個以迷宮游戲為主的網(wǎng)站,提供多種類型的迷宮玩法,包括Mini、...

AiPyApp
AiPyApp

一款以Python為核心的開源新人工智能體助手,結(jié)合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式設(shè)計工具,整合了圖像、視頻、文檔/PDF、...

Intangible AI
Intangible AI

創(chuàng)意行業(yè)空間智能AI平臺,通過簡潔的3D界面與空間智能技術(shù)解決A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作臺,基于自研法律大模型的AI智能體...

Relume
Relume

一個通過AI來優(yōu)化網(wǎng)站設(shè)計與搭建流程的平臺,可以快速生成網(wǎng)站地圖...

Pomelli
Pomelli

Google開發(fā)的AI營銷工具,主要服務(wù)中小商家。你只需要提供企...

主站蜘蛛池模板: 山东省| 阿坝县| 万载县| 永胜县| 昭苏县| 长沙县| 阿拉善右旗| 盘山县| 鄂托克前旗| 慈利县| 化州市| 天台县| 汾阳市| 辉县市| 惠安县| 瑞昌市| 通道| 通榆县| 舒城县| 绥棱县| 上思县| 微山县| 晋宁县| 大荔县| 荆州市| 蓬莱市| 梅河口市| 启东市| 太仆寺旗| 盱眙县| 定兴县| 永嘉县| 同德县| 九台市| 泽库县| 依兰县| 宁陵县| 朔州市| 宜昌市| 江津市| 兴义市|