我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

SmolDocling:將復雜的文檔轉換為結構化文本的輕量型視覺語言模型

SmolDocling是什么?

SmolDocling 是由 IBM Research 和 Hugging Face 聯(lián)合開發(fā)的輕量型視覺語言模型,專為端到端多模態(tài)文檔轉換而設計。它僅包含 256M 參數(shù),能夠在消費級 GPU 上快速處理文檔,每頁文檔的處理時間僅需 0.35 秒。SmolDocling 的核心使命是將任意圖片中的復雜內容轉化為可編輯的結構化數(shù)據(jù)。

SmolDocling功能

  • DocTags 用于高效標記:引入 DocTags,這是一種高效且簡潔的文檔表示方式,與 DoclingDocuments 完全兼容。

  • OCR(光學字符識別):能夠從圖像中準確提取文本。

  • 布局和定位:保留文檔結構和文檔元素的 邊界框。

  • 代碼識別:檢測并格式化代碼塊,包括縮進。

  • 公式識別:識別并處理數(shù)學表達式。

  • 圖表識別:提取并解釋圖表數(shù)據(jù)。

  • 表格識別:支持帶列標題和行標題的結構化表格提取。

  • 圖形分類:區(qū)分圖形和圖形元素。

  • 標題對應:將標題與相關圖像和圖形鏈接起來。

  • 列表分組:正確組織和結構化列表元素。

  • 全頁轉換:處理整個頁面,包括頁面上的所有元素(代碼、方程、表格、圖表等)。

  • OCR 帶邊界框:使用邊界框進行 OCR 區(qū)域識別。

  • 通用文檔處理:適用于科學和非科學文檔的訓練。

  • 無縫 Docling 集成:可以導入到 Docling 并以多種格式導出(如 HTML、Markdown 等)。

  • 快速推理:在 A100 GPU 上平均每頁處理時間為 0.35 秒。

SmolDocling:將復雜的圖像、PDF文檔高效轉換為結構化文本.webp

模型擴展與優(yōu)化

  • 支持多種指令:支持多種指令,例如將頁面轉換為 DocTags、將圖表轉換為表格、將公式轉換為 LaTeX 等。

  • 多語言支持:雖然主要支持英語,但可能通過擴展支持更多語言。

  • 持續(xù)改進:改進圖表識別、支持多頁推理、化學識別等功能。

SmolDocling應用場景

  • 學術研究:快速將學術論文和研究報告轉換為結構化格式,便于提取關鍵信息。

  • 商業(yè)文檔處理:自動轉換商業(yè)合同、報告和表格,便于企業(yè)進行文檔存儲、檢索和分析。

  • 技術文檔管理:將技術手冊、代碼文檔等轉換為可編輯格式,支持代碼片段的準確識別和格式化。

  • 教育領域:將教材、講義中的內容(如公式、圖表)提取并轉換為易于理解的格式。

  • 醫(yī)療文檔處理:處理醫(yī)療報告和研究論文,提取關鍵信息,輔助醫(yī)療決策。

  • 移動與低資源設備支持:可在移動設備或資源受限的環(huán)境中運行。

SmolDocling使用方法

  1. 模型下載:可以從 Hugging Face 模型庫下載 SmolDocling。

  2. 本地部署:由于其體積小,可在普通筆記本電腦或移動設備上運行。

  3. API 調用:可以通過 Hugging Face 提供的 API 接口調用 SmolDocling。

  4. 微調模型:開發(fā)者可以通過微調模型適配特定場景,如醫(yī)療報告解析、財務表格識別。

Hugging Face 模型庫:https://huggingface.co/ds4sd/SmolDocling-256M-preview

DEMO:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo

收藏

相關文章

最新工具
PrettyScale
PrettyScale

一個在線面部分析及顏值打分網站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書這些平臺導入別...

Wonderplan AI
Wonderplan AI

一個免費的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個能自動記錄網頁操作并生成操作指南的工具。它能捕捉鼠標點擊、鍵...

ReactBits
ReactBits

一個免費開源的動畫化、可交互React組件庫,里面有好多動畫化、...

電視眼
電視眼

也叫TV眼,是一個在線網絡電視直播網站,提供全國5000+個電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個免費游戲資源下載網站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個可以隨機展示全球谷歌街景照片的網站,每次點按鈕,系統(tǒng)會隨機選...

ZType
ZType

官網:zty.pe,一個把打字練習和射擊游戲結合的在線工具。玩家...

主站蜘蛛池模板: 太保市| 呼和浩特市| 平江县| 承德市| 福泉市| 江源县| 阳曲县| 綦江县| 九寨沟县| 巴彦淖尔市| 九江市| 凤台县| 延长县| 绥德县| 柏乡县| 塔河县| 瑞安市| 黑水县| 孝感市| 清远市| 叙永县| 双牌县| 沅陵县| 鄂托克前旗| 马山县| 东台市| 新源县| 永福县| 兴安盟| 合山市| 永善县| 巴里| 定日县| 正定县| 仙桃市| 阳朔县| 凌云县| 铜陵市| 扎赉特旗| 乌拉特中旗| 江山市|