
MinerU
MinerU簡介
MinerU是一款將PDF轉(zhuǎn)化為機(jī)器可讀格式的工具(如markdown、json),可以很方便地抽取為任意格式。 MinerU誕生于書生-浦語的預(yù)訓(xùn)練過程中。MinerU能保留原PDF文檔結(jié)構(gòu),提取文字、圖片、圖片描述、表格等內(nèi)容,自動識別并轉(zhuǎn)換LaTeX格式、HTML格式,自動OCR,支持多語言。
MinerU主要功能:
刪除頁眉、頁腳、腳注、頁碼等元素,確保語義連貫
輸出符合人類閱讀順序的文本,適用于單欄、多欄及復(fù)雜排版
保留原文檔的結(jié)構(gòu),包括標(biāo)題、段落、列表等
提取圖像、圖片描述、表格、表格標(biāo)題及腳注
自動識別并轉(zhuǎn)換文檔中的公式為LaTeX格式
自動識別并轉(zhuǎn)換文檔中的表格為HTML格式
自動檢測掃描版PDF和亂碼PDF,并啟用OCR功能
OCR支持84種語言的檢測與識別
支持多種輸出格式,如多模態(tài)與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等
支持多種可視化結(jié)果,包括layout可視化、span可視化等,便于高效確認(rèn)輸出效果與質(zhì)檢
支持CPU和GPU環(huán)境
兼容Windows、Linux和Mac平臺
MinerU核心功能與優(yōu)勢:
Magic-PDF模塊:專注于PDF文檔處理,能夠智能識別并去除非正文內(nèi)容如頁眉、頁腳,同時精準(zhǔn)保留標(biāo)題、段落、列表等結(jié)構(gòu),支持圖片、表格、公式的提取,確保轉(zhuǎn)換后的Markdown格式既準(zhǔn)確又易于閱讀。
Magic-Doc模塊:針對網(wǎng)頁和電子書,能夠從網(wǎng)頁中提取正式內(nèi)容。
多模態(tài)內(nèi)容處理:MinerU不僅處理文本,還能有效提取和處理圖像、表格、公式等多模態(tài)內(nèi)容。
多語言支持:MinerU支持包括繁簡中文在內(nèi)的84種語言。
格式多樣:支持多種輸出格式和可視化結(jié)果,適配 CPU 和 GPU 環(huán)境,兼容多平臺。
自動識別轉(zhuǎn)換:識別并轉(zhuǎn)換公式為 LaTeX 格式,表格為 LaTeX 或 HTML 格式,還能自動檢測并啟用 OCR 功能,。
MinerU只要應(yīng)用于學(xué)術(shù)研究、市場分析、法律文檔處理、知識管理等領(lǐng)域,使得我們能高效地從大量文檔中提取關(guān)鍵信息,從而加速數(shù)據(jù)準(zhǔn)備過程,為大模型訓(xùn)練、知識圖譜構(gòu)建等提供高質(zhì)量的數(shù)據(jù)支持。
MinerU由上海人工智能實驗室(上海ai實驗室)大模型數(shù)據(jù)基座OpenDataLab團(tuán)隊開發(fā),并在2024年的WAIC(世界人工智能大會)上發(fā)布,迅速在GitHub上獲得關(guān)注,成為Python的熱門項目。
與MinerU相關(guān)工具
- 用戶登錄