Nanonets-OCR-s:能把圖片里的表格轉換成Markdown格式模型
Nanonets-OCR-s是什么?
Nanonets-OCR-s,能把圖片里的表格轉換成Markdown格式,而且還能識別 LaTeX 語法。它還能找到圖片的位置,轉換成 <img> 標簽。簽名會被轉換成 <signature> 標簽,復選框之類的符號會用顏文字表示。它還能處理合并單元格的表格,并輸出為 HTML 格式。這個模型大小是 3.75B,是基于 Qwen2.5-VL-3B-Instruct 微調的,所以中文支持得很好。
功能亮點
表格轉換:可以精準提取復雜表格,并將其轉換為清晰的 Markdown 和 HTML 格式。
公式識別:能夠將文檔中的數學公式準確轉換為 LaTeX 語法,無論是內聯公式還是獨立公式都能輕松應對。
圖像處理:自動識別文檔中的圖片,并用 <img> 標簽進行描述,方便后續處理。
簽名與水印提取:可以檢測到文檔中的簽名和水印,并分別用 <signature> 和 <watermark> 標簽標記出來。
復選框處理:將文檔中的復選框和單選按鈕轉換為標準的 Unicode 符號,方便閱讀和編輯。
使用方式
通過 Python 庫:
安裝必要的庫(如 transformers 等)。
加載預訓練模型,然后處理圖像并提取內容。
通過服務器接口:
啟動服務器,通過 Python 和相關客戶端發送請求,獲取轉換結果。
通過簡化工具:
使用 docext 等工具,一鍵啟動應用,簡化操作流程。
適用場景
學術研究:快速將論文中的公式、圖表和表格轉換為可編輯的 Markdown 格式,方便整理和進一步研究。
商業辦公:處理合同、報表等文件,提取關鍵信息并保持格式一致,提高工作效率。
法律領域:識別和隔離簽名、水印等重要元素,確保文檔的完整性和準確性。
優勢
功能強大:能識別多種文檔元素,滿足不同場景的需求。
智能高效:通過智能識別和語義標記,讓輸出內容更易于處理。
輕量便捷:模型大小適中,基于現有技術優化,支持中文。
項目地址
https://huggingface.co/nanonets/Nanonets-OCR-s