MinerU

一站式開源高質量數據提取工具，支持PDF、網頁、多格式電子書提取，自動識別并轉換LaTeX格式、HTML格式，自動OCR，支持多語言。

#Ai工具箱 #Ai開源項目

MinerU簡介

MinerU是一款將PDF轉化為機器可讀格式的工具（如markdown、json），可以很方便地抽取為任意格式。 MinerU誕生于書生-浦語的預訓練過程中。MinerU能保留原PDF文檔結構，提取文字、圖片、圖片描述、表格等內容，自動識別并轉換LaTeX格式、HTML格式，自動OCR，支持多語言。

MinerU主要功能

MinerU主要功能：

刪除頁眉、頁腳、腳注、頁碼等元素，確保語義連貫
輸出符合人類閱讀順序的文本，適用于單欄、多欄及復雜排版
保留原文檔的結構，包括標題、段落、列表等
提取圖像、圖片描述、表格、表格標題及腳注
自動識別并轉換文檔中的公式為LaTeX格式
自動識別并轉換文檔中的表格為HTML格式
自動檢測掃描版PDF和亂碼PDF，并啟用OCR功能
OCR支持84種語言的檢測與識別
支持多種輸出格式，如多模態與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等
支持多種可視化結果，包括layout可視化、span可視化等，便于高效確認輸出效果與質檢
支持CPU和GPU環境
兼容Windows、Linux和Mac平臺

MinerU核心功能與優勢：

Magic-PDF模塊：專注于PDF文檔處理，能夠智能識別并去除非正文內容如頁眉、頁腳，同時精準保留標題、段落、列表等結構，支持圖片、表格、公式的提取，確保轉換后的Markdown格式既準確又易于閱讀。
Magic-Doc模塊：針對網頁和電子書，能夠從網頁中提取正式內容。
多模態內容處理：MinerU不僅處理文本，還能有效提取和處理圖像、表格、公式等多模態內容。
多語言支持：MinerU支持包括繁簡中文在內的84種語言。
格式多樣：支持多種輸出格式和可視化結果，適配 CPU 和 GPU 環境，兼容多平臺。
自動識別轉換：識別并轉換公式為 LaTeX 格式，表格為 LaTeX 或 HTML 格式，還能自動檢測并啟用 OCR 功能，。

MinerU只要應用于學術研究、市場分析、法律文檔處理、知識管理等領域，使得我們能高效地從大量文檔中提取關鍵信息，從而加速數據準備過程，為大模型訓練、知識圖譜構建等提供高質量的數據支持。

MinerU由上海人工智能實驗室（上海ai實驗室）大模型數據基座OpenDataLab團隊開發，并在2024年的WAIC（世界人工智能大會）上發布，迅速在GitHub上獲得關注，成為Python的熱門項目。

LTX Video

RMBG-2.0