No-OCR:一款不需要OCR文本提取的文檔處理工具
No-OCR是什么?
No-OCR是一款不需要復(fù)雜OCR文本提取的文檔處理工具,只需上傳PDF文件,就可以快速搜索或查詢(xún)多個(gè)文檔集合中的內(nèi)容,不需要依賴(lài)傳統(tǒng)OCR技術(shù),可以提升文檔分析效率。它支持創(chuàng)建和管理PDF/文檔集合,并按“案例”分類(lèi)組織,同時(shí)自動(dòng)構(gòu)建Hugging Face風(fēng)格的數(shù)據(jù)集。此外,No-OCR還具備基于向量的PDF頁(yè)面和相關(guān)圖像搜索功能(使用LanceDB),并通過(guò)Qwen2-VL實(shí)現(xiàn)圖像和圖表的視覺(jué)問(wèn)答。它支持文本和視覺(jué)查詢(xún)的混合搜索,可通過(guò)Docker快速部署,配置簡(jiǎn)單,還提供了詳細(xì)的開(kāi)發(fā)安裝說(shuō)明。
No-OCR特點(diǎn)
無(wú)需OCR:完全不依賴(lài)OCR技術(shù),適用于視覺(jué)內(nèi)容豐富的PDF文件。
簡(jiǎn)單易用:上傳PDF文件后即可進(jìn)行搜索,支持復(fù)雜視覺(jué)內(nèi)容(如表格、圖表、布局等)。
開(kāi)源模型:基于開(kāi)源的LLM(大型語(yǔ)言模型)進(jìn)行內(nèi)容檢索和解釋。
可部署性:支持Docker部署,適用于任何企業(yè)環(huán)境。
No-OCR使用場(chǎng)景
適用場(chǎng)景:如果文檔包含豐富的視覺(jué)內(nèi)容(如表格、圖表、布局等),No-OCR是一個(gè)很好的選擇。
不適用場(chǎng)景:如果文檔主要是純文本內(nèi)容,傳統(tǒng)的BM25搜索可能更適合。
混合內(nèi)容:如果文檔包含文本和視覺(jué)內(nèi)容的混合,可能需要根據(jù)需求調(diào)整解決方案。
No-OCR架構(gòu)設(shè)計(jì)
簡(jiǎn)單架構(gòu):不依賴(lài)數(shù)據(jù)庫(kù)或消息隊(duì)列,所有持久化操作均基于文件系統(tǒng)。
主要服務(wù):
Modal:用于LLM的部署。
Qdrant:用于多向量搜索。
Supabase:用于用戶認(rèn)證和授權(quán)。
創(chuàng)建案例:用戶上傳PDF文件并指定案例名稱(chēng),系統(tǒng)會(huì)將PDF轉(zhuǎn)換為數(shù)據(jù)集并上傳到Qdrant。
搜索流程:用戶輸入搜索查詢(xún),系統(tǒng)通過(guò)LLM識(shí)別相關(guān)頁(yè)面并解釋內(nèi)容。
No-OCR LLM模型
ColPali家族:用于圖像檢索,將圖像轉(zhuǎn)換為可搜索格式。
Qwen2-VL家族:用于視覺(jué)內(nèi)容的推理,特別是Qwen2-VL-7B-Instruct模型,是目前最先進(jìn)的開(kāi)源視覺(jué)模型之一。
創(chuàng)建案例流程
工作原理
No-OCR平臺(tái)采用簡(jiǎn)化的RAG方法,用戶只需上傳PDF文件創(chuàng)建案例,系統(tǒng)會(huì)處理這些文件并使其可搜索。用戶可以提出任何問(wèn)題,包括關(guān)于視覺(jué)元素的問(wèn)題,平臺(tái)會(huì)利用頂級(jí)開(kāi)源推理模型提供答案。
搜索流程
No-OCR使用步驟
上傳并處理復(fù)雜PDF:用戶上傳具有挑戰(zhàn)性的PDF文件創(chuàng)建新案例,系統(tǒng)會(huì)生成嵌入,無(wú)需復(fù)雜的OCR處理。
使其可搜索:處理完成后,用戶可以運(yùn)行基于文本的查詢(xún),快速找到相關(guān)頁(yè)面和引用,無(wú)論P(yáng)DF布局多么復(fù)雜。
提出視覺(jué)相關(guān)問(wèn)題:平臺(tái)會(huì)快速定位相關(guān)頁(yè)面,然后通過(guò)專(zhuān)門(mén)的開(kāi)源視覺(jué)模型進(jìn)一步提煉答案,即使PDF包含圖表或圖表,也能提供上下文感知的見(jiàn)解。
TLDR:https://no-ocr.com/about
Github:https://github.com/kyryl-opens-ml/no-ocr