LLMWhisperer:將復雜文檔轉換為結構化文本的文檔解析工具
LLMWhisperer是什么?
LLMWhisperer是一款能將復雜文檔解析為LLM格式的工具,能夠高效提取文檔中的文字、URL、元數據等深度信息,并以清晰的結構化格式輸出。它支持 PDF 和圖像等多種格式,還能自動提取姓名、地址這些重要信息。每天免費處理 100 頁文檔。
它還有在線測試環境,提供 API 和 JS/Python 的開發工具包,能輕松和 Next.js、Node.js、數據庫這些常用技術對接。用它能省下不少處理圖像輸入的成本,特別適合發票、身份證、報銷單這些場景。
LLMWhisperer功能特點
保留文檔布局:LLMWhisperer 的布局保留模式可以保留文檔的原始結構,包括表格、段落、多列布局等,確保提取后的數據與原始文檔一致。
自動模式切換:工具能夠自動識別文檔類型,并在文本模式和 OCR 模式之間切換。如果文檔是掃描圖像或手寫內容,它會自動切換到 OCR 模式。
表單元素識別:LLMWhisperer 能夠識別 PDF 表單中的復選框和單選按鈕,并將其值以原始文本形式呈現,方便 LLM 理解。
自動壓縮:在處理文檔時,LLMWhisperer 可以自動壓縮不必要的 tokens,減少處理時間和成本,同時保留關鍵信息。
多語言支持:LLMWhisperer 支持超過 300 種語言,能夠處理多語言文檔,包括非拉丁字母腳本(如阿拉伯語、中文、日語等)。
多種文檔格式支持:支持 PDF、圖像(JPEG、PNG 等)、MS Office 文件(Word、Excel、PowerPoint)、OpenDocument 格式(ODT、ODP、ODS)以及純文本文件(TXT)。
LLMWhisperer使用方法
API 集成:LLMWhisperer 提供 API 接口,可以將其集成到現有的系統中,實現文檔的自動化預處理。
客戶端庫:用戶可以通過安裝 LLM Whisperer 的客戶端庫(如 Python 的 llmwhisperer-client)來調用其功能。
在線測試:LLMWhisperer 提供了一個在線的 Playground 環境,用戶可以上傳文檔進行實時測試,無需注冊或安裝任何軟件。
優化能力
自動模式切換:處理文檔時,若文本模式提取輸出不足,自動切換到 OCR 模式。
自動壓縮:在保留布局的同時壓縮對輸出無價值的標記,減少 LLMs 處理時間和成本。
預處理控制:可控制掃描圖像的預處理,通過 API 調整中值濾波、高斯模糊等參數。
官網:https://unstract.com/llmwhisperer/
相關文章
- 用戶登錄