我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

TableRAG:一個(gè)專為表格理解設(shè)計(jì)的檢索增強(qiáng)生成框架

TableRAG是一個(gè)用于解決異構(gòu)文檔問答中結(jié)構(gòu)信息丟失和缺乏全局視圖問題的框架。它結(jié)合了SQL執(zhí)行和文本檢索,能夠統(tǒng)一理解表格數(shù)據(jù)并進(jìn)行復(fù)雜操作。這個(gè)框架包括離線數(shù)據(jù)庫構(gòu)建和四步在線迭代推理過程。在新基準(zhǔn)HeteQA和其他公共基準(zhǔn)測試中,TableRAG表現(xiàn)優(yōu)異,超越了現(xiàn)有的RAG和程序化方法,成為處理復(fù)雜異構(gòu)文檔推理的先進(jìn)解決方案。

TableRAG:一個(gè)專為表格理解設(shè)計(jì)的檢索增強(qiáng)生成框架.webp

核心原理

  • 查詢擴(kuò)展與檢索:TableRAG通過查詢擴(kuò)展、模式檢索和單元格檢索來定位表格中的關(guān)鍵信息。它會(huì)生成針對模式和單元格值的獨(dú)立查詢,避免單一查詢帶來的冗余信息。

  • 模式檢索:ai語言模型可以通過列名識別關(guān)鍵列及其數(shù)據(jù)類型,無需對整個(gè)列進(jìn)行編碼。例如,對于問題“錢包的平均價(jià)格是多少?”語言模型會(huì)生成列名查詢,如“產(chǎn)品”和“價(jià)格”。

  • 單元格檢索:基于語言模型生成的查詢,檢索與問題相關(guān)的列名和單元格。例如,檢索與“錢包”相關(guān)的單元格值。

  • 頻率感知截?cái)啵阂雴卧窬幋a預(yù)算B,如果不同值的數(shù)量超過B,則只編碼出現(xiàn)頻率最高的前B個(gè)值。

TableRAG主要模塊

  • online_inference/main.py:TableRAG的核心推理代碼,包含TableRAG類,實(shí)現(xiàn)在線推理的主要邏輯。

  • offline_data_ingestion_and_query_interface/src/interface.py:使用Flask框架提供SQL查詢接口。

  • online_inference/tools/sql_tool.py:包含SQL生成和執(zhí)行的工具函數(shù),支持重試機(jī)制。

  • offline_data_ingestion_and_query_interface/src/sql_alchemy_helper.py:提供SQLAlchemy數(shù)據(jù)庫操作的輔助類,支持?jǐn)?shù)據(jù)插入和查詢。

  • offline_data_ingestion_and_query_interface/src/service.py:處理TableRAG請求的核心邏輯,包括從LLM獲取SQL語句并執(zhí)行。

  • online_inference/chat_utils.py:包含獲取LLM生成結(jié)果的工具函數(shù),支持不同API后端。

  • offline_data_ingestion_and_query_interface/src/data_persistent.py:用于清洗DataFrame列名的工具函數(shù)。

  • offline_data_ingestion_and_query_interface/src/handle_requests.py:調(diào)用大模型推理接口,包含異常捕獲和指數(shù)退避重試機(jī)制。

  • online_inference/tools/retriever.py:實(shí)現(xiàn)語義檢索和混合文檔檢索的功能,包括召回和重排序。

優(yōu)勢

  • 高效數(shù)據(jù)編碼:通過模式檢索和單元格檢索,TableRAG減少了語言模型的輸入長度,使其與表格大小無關(guān),提高了編碼效率,降低了計(jì)算成本。

  • 減少信息丟失:僅將檢索到的模式和單元格提供給語言模型,避免了處理整個(gè)表格導(dǎo)致的關(guān)鍵信息丟失。

  • 提升推理能力:TableRAG通過提供關(guān)鍵信息,增強(qiáng)了語言模型的表格推理能力。

TableRAG應(yīng)用場景

  • 數(shù)據(jù)分析和報(bào)告生成:適用于需要處理大規(guī)模表格數(shù)據(jù)的場景,如數(shù)據(jù)分析、報(bào)告生成和財(cái)務(wù)報(bào)表處理。

  • 跨表問答:能夠處理基于表格的事實(shí)驗(yàn)證、單跳和多跳表格問答等任務(wù)。

實(shí)驗(yàn)驗(yàn)證

研究者開發(fā)了基于Arcade和BIRD-SQL數(shù)據(jù)集的百萬級標(biāo)記基準(zhǔn)測試,評估TableRAG在大規(guī)模表格理解任務(wù)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,TableRAG在檢索質(zhì)量和大規(guī)模表格理解性能方面優(yōu)于現(xiàn)有方法。

項(xiàng)目鏈接

Github:https://github.com/yxh-y/TableRAG

收藏
最新工具
PrettyScale
PrettyScale

一個(gè)在線面部分析及顏值打分網(wǎng)站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書這些平臺導(dǎo)入別...

Wonderplan AI
Wonderplan AI

一個(gè)免費(fèi)的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個(gè)能自動(dòng)記錄網(wǎng)頁操作并生成操作指南的工具。它能捕捉鼠標(biāo)點(diǎn)擊、鍵...

ReactBits
ReactBits

一個(gè)免費(fèi)開源的動(dòng)畫化、可交互React組件庫,里面有好多動(dòng)畫化、...

電視眼
電視眼

也叫TV眼,是一個(gè)在線網(wǎng)絡(luò)電視直播網(wǎng)站,提供全國5000+個(gè)電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動(dòng)把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個(gè)免費(fèi)游戲資源下載網(wǎng)站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個(gè)可以隨機(jī)展示全球谷歌街景照片的網(wǎng)站,每次點(diǎn)按鈕,系統(tǒng)會(huì)隨機(jī)選...

ZType
ZType

官網(wǎng):zty.pe,一個(gè)把打字練習(xí)和射擊游戲結(jié)合的在線工具。玩家...

主站蜘蛛池模板: 铜陵市| 田林县| 甘南县| 肥城市| 盐边县| 襄汾县| 清丰县| 常山县| 富锦市| 许昌市| 锡林郭勒盟| 孟津县| 凤山市| 资中县| 威信县| 丘北县| 阿尔山市| 来宾市| 张家口市| 逊克县| 通辽市| 江达县| 从江县| 苍山县| 崇礼县| 中江县| 板桥市| 临颍县| 泽库县| 安图县| 宣恩县| 弥勒县| 东至县| 合肥市| 利川市| 朝阳市| 平罗县| 阿图什市| 鹰潭市| 洞头县| 武义县|