PDF Document Layout Analysis:基于Docker的PDF文檔布局分析和PDF OCR服務
PDF Document Layout Analysis是什么?
PDF Document Layout Analysis 是一個基于 Docker 的服務,用于分析 PDF 文檔的布局。它能夠對 PDF 頁面的不同部分進行分割和分類,能準確自動識別 PDF 頁面中的文本、標題、圖片、表格等元素,并確定這些元素的正確順序。
PDF Document Layout Analysis功能特征
1. OCR 功能
多語言支持:支持多種語言的 OCR 功能,用戶可以通過指定語言參數來處理不同語言的 PDF 文檔。
文本提取:將 PDF 中的圖像或不可搜索的文本轉換為可搜索的文本格式,便于后續處理和分析。
2. 頁面分割和分類
識別多種元素:能夠識別和分類 PDF 頁面中的多種元素:
文本:普通文本內容。
標題:文檔的標題和小標題。
圖片:頁面中的圖像。
表格:表格內容。
公式:數學公式,支持 LaTeX 格式輸出。
列表項:有序或無序的列表。
頁眉和頁腳:頁面的頁眉和頁腳。
腳注:文檔中的腳注。
其他:如圖片說明、表格標題等。
精確分類:使用先進的視覺模型(如 Vision Grid Transformer - VGT)和機器學習模型(如 LightGBM),確保高精度的分類結果。
3. 元素排序
邏輯順序:根據頁面布局和元素類型,自動確定元素的邏輯順序,確保輸出結果符合文檔的閱讀順序。
自定義排序規則:結合 Poppler 的初始閱讀順序和段落類型,對元素進行排序,確保輸出的邏輯性和連貫性。
4. 可視化輸出
可視化 PDF:支持將分析結果可視化為新的 PDF 文件,用戶可以直觀地查看分割和分類的結果。
標注功能:在可視化輸出中,不同類型的元素會以不同的顏色或樣式進行標注,便于區分。
5. 表格和公式提取
表格提取:支持將表格提取為多種格式,如 Markdown、LaTeX 或 HTML,便于進一步處理和分析。
公式提取:公式以 LaTeX 格式輸出,方便在學術和工程文檔中使用。
PDF Document Layout Analysis應用場景
學術研究:從研究論文中提取和組織文本、圖表、表格和參考文獻,便于文獻綜述和數據分析。
法律文檔分析:分析和結構化法律文件、合同和案例文件。
商業報告:自動化提取財務數據、圖表和關鍵指標,便于生成見解和摘要。
檔案和數字化:數字化和分類歷史文檔、手稿和檔案,以易于搜索的格式保存。
出版和媒體:組織和格式化手稿、文章和報告的內容,確保一致性和質量。
快速開始
運行服務:支持 GPU 和非 GPU 模式。
OCR 功能:支持多種語言,通過 curl 命令調用。
獲取分割結果:通過 curl 命令發送 PDF 文件,獲取分割后的結果。
停止服務:提供停止服務器的命令。
依賴和要求
Docker Desktop:需要安裝 Docker Desktop 4.25.0 或更高版本。
GPU 支持:如果需要 GPU 加速,需要安裝相應的 GPU 支持軟件。
硬件要求:至少需要 2 GB 內存,如果使用 GPU,需要 5 GB GPU 內存。
模型
視覺模型(Vision Grid Transformer - VGT):默認模型,由阿里巴巴研究團隊訓練,支持更復雜的布局分析,但需要更多資源。
LightGBM 模型:非視覺模型,使用 Poppler 提取的 XML 信息進行分類和分割,速度更快,資源占用更少。
數據
訓練數據:使用 DocLayNet 數據集,包含 11 種類別,如標題、腳注、公式、列表項等。
使用方法
基本命令:通過 curl 命令發送 PDF 文件,選擇使用視覺模型或非視覺模型。
可視化輸出:支持將分析結果可視化為 PDF 文件。
表格和公式提取:支持將表格和公式以不同格式(如 LaTeX、Markdown)提取。
輸出順序
排序規則:基于 Poppler 的初始閱讀順序和段落類型進行排序,確保輸出的邏輯順序。
性能和速度
性能:VGT 模型在 PubLayNet 數據集上的表現優異,平均準確率超過 96%。
速度:非視覺模型在 CPU 上每頁處理速度為 0.42 秒,視覺模型在 GPU 上為 1.75 秒,在 CPU 上為 13.5 秒。
相關鏈接
GitHub:https://github.com/huridocs/pdf-document-layout-analysis
DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis