我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

PDF-Craft:一個掃描書籍PDF文件轉Markdown/EPUB工具

PDF-Craft是什么?

PDF-Craft是一個用于處理PDF文件的開源項目,專注于將掃描書籍的PDF轉換為Markdown或EPUB格式。它通過OCR技術識別文字,并利用ai算法提取文本、過濾頁眉頁腳等元素,生成結構化內容。支持本地計算和LLM輔助功能,適合學術論文、小冊子及長篇書籍的格式轉換。

PDF-Craft:一個掃描書籍PDF文件轉Markdown/EPUB工具.jpg

PDF-Craft功能特征

格式轉換:

  • 支持將PDF轉換為Markdown格式,適合論文或小書本。

  • 超過100頁的,可結合了本地OCR和云端LLM處理,生成帶目錄分章節的EPUB。

智能提取:

  • 使用DocLayout-YOLO和自定義算法提取正文,過濾頁眉、頁腳、腳注、頁碼等元素。

  • 在跨頁時,算法會處理前后文的順接問題。

OCR識別:

  • 使用OnnxOCR進行文字識別,支持插圖、表格和公式的截圖,并直接插入到輸出文件中。

閱讀順序優化:

  • 通過layoutreader確定符合人類閱讀習慣的順序。

LLM輔助:

  • 在EPUB轉換過程中,通過LLM(如DeepSeek)讀取注釋和引用信息,并在EPUB中呈現。

  • LLM還能在一定程度上糾正OCR錯誤。

本地運行:

  • 支持CPU和GPU加速,無需聯網即可完成大部分操作。

PDF-Craft應用場景

  • 學術研究:將掃描的學術論文轉換為Markdown或EPUB格式,便于編輯和閱讀。

  • 電子書制作:將掃描書籍轉換為EPUB格式,生成帶目錄和章節的電子書。

  • 文檔處理:提取PDF中的文字和圖像,用于進一步編輯或歸檔。

PDF-Craft:一個掃描書籍PDF文件轉Markdown/EPUB工具.webp

PDF-Craft使用方法

1. 安裝:需要Python 3.10及以上版本,支持CUDA加速。

2. PDF轉Markdown:

from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model")
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
    for block in extractor.extract(pdf="/path/to/pdf"):
        md.write(block)

3. PDF轉EPUB:

from pdf_craft import PDFPageExtractor, LLM, analyse, generate_epub_file
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model")
llm = LLM(key="sk-XXXXX", url="https://api.deepseek.com", model="deepseek-chat")
analyse(llm=llm, pdf_page_extractor=extractor, pdf_path="/path/to/pdf", analysing_dir_path="/path/to/analysing", output_dir_path="/path/to/output")
generate_epub_file(from_dir_path="/path/to/output", epub_file_path="/path/to/output.epub")

github項目:https://github.com/oomol-lab/pdf-craft


收藏
最新工具
Custom Cursor
Custom Cursor

一個能讓你擁有個性化光標的網站。Custom Cursor網站有...

橙子8設計
橙子8設計

一站式AI電商圖片制作平臺,專為電商和跨境賣家服務。不用專業設計...

Sandspiel
Sandspiel

一款基于細胞自動機和實時物理的開源像素沙盤游戲,玩家可以在虛擬沙...

印象地圖
印象地圖

這是個可以幫你記住全國省市位置的測試工具。打開網站就能用,選個模...

Sandtris
Sandtris

一款把經典俄羅斯方塊和流沙物理效果結合的休閑游戲。玩家需要利用沙...

Maze Toys
Maze Toys

一個以迷宮游戲為主的網站,提供多種類型的迷宮玩法,包括Mini、...

AiPyApp
AiPyApp

一款以Python為核心的開源新人工智能體助手,結合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式設計工具,整合了圖像、視頻、文檔/PDF、...

Intangible AI
Intangible AI

創意行業空間智能AI平臺,通過簡潔的3D界面與空間智能技術解決A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作臺,基于自研法律大模型的AI智能體...

主站蜘蛛池模板: 兴文县| 蒙自县| 阜阳市| 闻喜县| 荆州市| 万宁市| 玉屏| 林甸县| 额尔古纳市| 米易县| 永丰县| 肥西县| 忻城县| 余姚市| 施秉县| 邛崃市| 宜兰市| 文化| 迭部县| 同心县| 汤原县| 宝鸡市| 蓝田县| 光泽县| 上林县| 分宜县| 博野县| 屯门区| 马公市| 巴南区| 巴林右旗| 临潭县| 昂仁县| 依兰县| 道真| 蓬安县| 开封市| 德化县| 同德县| 新巴尔虎右旗| 银川市|