No-OCR:一款不需要OCR文本提取的文檔處理工具
No-OCR是什么?
No-OCR是一款不需要復雜OCR文本提取的文檔處理工具,只需上傳PDF文件,就可以快速搜索或查詢多個文檔集合中的內容,不需要依賴傳統OCR技術,可以提升文檔分析效率。它支持創建和管理PDF/文檔集合,并按“案例”分類組織,同時自動構建Hugging Face風格的數據集。此外,No-OCR還具備基于向量的PDF頁面和相關圖像搜索功能(使用LanceDB),并通過Qwen2-VL實現圖像和圖表的視覺問答。它支持文本和視覺查詢的混合搜索,可通過Docker快速部署,配置簡單,還提供了詳細的開發安裝說明。
No-OCR特點
無需OCR:完全不依賴OCR技術,適用于視覺內容豐富的PDF文件。
簡單易用:上傳PDF文件后即可進行搜索,支持復雜視覺內容(如表格、圖表、布局等)。
開源模型:基于開源的LLM(大型語言模型)進行內容檢索和解釋。
可部署性:支持Docker部署,適用于任何企業環境。
No-OCR使用場景
適用場景:如果文檔包含豐富的視覺內容(如表格、圖表、布局等),No-OCR是一個很好的選擇。
不適用場景:如果文檔主要是純文本內容,傳統的BM25搜索可能更適合。
混合內容:如果文檔包含文本和視覺內容的混合,可能需要根據需求調整解決方案。
No-OCR架構設計
簡單架構:不依賴數據庫或消息隊列,所有持久化操作均基于文件系統。
主要服務:
Modal:用于LLM的部署。
Qdrant:用于多向量搜索。
Supabase:用于用戶認證和授權。
創建案例:用戶上傳PDF文件并指定案例名稱,系統會將PDF轉換為數據集并上傳到Qdrant。
搜索流程:用戶輸入搜索查詢,系統通過LLM識別相關頁面并解釋內容。
No-OCR LLM模型
ColPali家族:用于圖像檢索,將圖像轉換為可搜索格式。
Qwen2-VL家族:用于視覺內容的推理,特別是Qwen2-VL-7B-Instruct模型,是目前最先進的開源視覺模型之一。
創建案例流程
工作原理
No-OCR平臺采用簡化的RAG方法,用戶只需上傳PDF文件創建案例,系統會處理這些文件并使其可搜索。用戶可以提出任何問題,包括關于視覺元素的問題,平臺會利用頂級開源推理模型提供答案。
搜索流程
No-OCR使用步驟
上傳并處理復雜PDF:用戶上傳具有挑戰性的PDF文件創建新案例,系統會生成嵌入,無需復雜的OCR處理。
使其可搜索:處理完成后,用戶可以運行基于文本的查詢,快速找到相關頁面和引用,無論PDF布局多么復雜。
提出視覺相關問題:平臺會快速定位相關頁面,然后通過專門的開源視覺模型進一步提煉答案,即使PDF包含圖表或圖表,也能提供上下文感知的見解。
TLDR:https://no-ocr.com/about
Github:https://github.com/kyryl-opens-ml/no-ocr
相關文章
- 用戶登錄