我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

MinerU

MinerU

一站式開源高質量數據提取工具,支持PDF、網頁、多格式電子書提取,自動識別并轉換LaTeX格式、HTML格式,自動OCR,支持多語言。

#Ai工具箱 #Ai開源項目
收藏

MinerU簡介

MinerU是一款將PDF轉化為機器可讀格式的工具(如markdown、json),可以很方便地抽取為任意格式。 MinerU誕生于書生-浦語的預訓練過程中。MinerU能保留原PDF文檔結構,提取文字、圖片、圖片描述、表格等內容,自動識別并轉換LaTeX格式、HTML格式,自動OCR,支持多語言。

MinerU主要功能.webp

MinerU主要功能:

  • 刪除頁眉、頁腳、腳注、頁碼等元素,確保語義連貫

  • 輸出符合人類閱讀順序的文本,適用于單欄、多欄及復雜排版

  • 保留原文檔的結構,包括標題、段落、列表等

  • 提取圖像、圖片描述、表格、表格標題及腳注

  • 自動識別并轉換文檔中的公式為LaTeX格式

  • 自動識別并轉換文檔中的表格為HTML格式

  • 自動檢測掃描版PDF和亂碼PDF,并啟用OCR功能

  • OCR支持84種語言的檢測與識別

  • 支持多種輸出格式,如多模態與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等

  • 支持多種可視化結果,包括layout可視化、span可視化等,便于高效確認輸出效果與質檢

  • 支持CPU和GPU環境

  • 兼容Windows、Linux和Mac平臺

MinerU核心功能與優勢:

  • Magic-PDF模塊:專注于PDF文檔處理,能夠智能識別并去除非正文內容如頁眉、頁腳,同時精準保留標題、段落、列表等結構,支持圖片、表格、公式的提取,確保轉換后的Markdown格式既準確又易于閱讀。

  • Magic-Doc模塊:針對網頁和電子書,能夠從網頁中提取正式內容。

  • 多模態內容處理:MinerU不僅處理文本,還能有效提取和處理圖像、表格、公式等多模態內容。

  • 多語言支持:MinerU支持包括繁簡中文在內的84種語言。

  • 格式多樣:支持多種輸出格式和可視化結果,適配 CPU 和 GPU 環境,兼容多平臺。

  • 自動識別轉換:識別并轉換公式為 LaTeX 格式,表格為 LaTeX 或 HTML 格式,還能自動檢測并啟用 OCR 功能,。

MinerU只要應用于學術研究、市場分析、法律文檔處理、知識管理等領域,使得我們能高效地從大量文檔中提取關鍵信息,從而加速數據準備過程,為大模型訓練、知識圖譜構建等提供高質量的數據支持。

MinerU由上海人工智能實驗室(上海ai實驗室)大模型數據基座OpenDataLab團隊開發,并在2024年的WAIC(世界人工智能大會)上發布,迅速在GitHub上獲得關注,成為Python的熱門項目。

與MinerU相關工具

主站蜘蛛池模板: 扎兰屯市| 武山县| 东安县| 墨脱县| 荣成市| 丹江口市| 昆明市| 凯里市| 光山县| 赤城县| 兖州市| 濮阳市| 宁城县| 工布江达县| 尼木县| 阿拉善盟| 衡南县| 马关县| 溧阳市| 仪陇县| 蕉岭县| 甘德县| 万载县| 乌拉特前旗| 宜昌市| 安丘市| 明星| 甘德县| 上犹县| 蒙山县| 延寿县| 华宁县| 社旗县| 维西| 新干县| 文水县| 永清县| 东安县| 全椒县| 宁陵县| 大洼县|