我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺

首頁 > Ai資訊 > Ai產(chǎn)品

SmolDocling：將復(fù)雜的文檔轉(zhuǎn)換為結(jié)構(gòu)化文本的輕量型視覺語言模型

SmolDocling于2025-03-20發(fā)布在Ai產(chǎn)品

SmolDocling是什么？

SmolDocling 是由 IBM Research 和 Hugging Face 聯(lián)合開發(fā)的輕量型視覺語言模型，專為端到端多模態(tài)文檔轉(zhuǎn)換而設(shè)計。它僅包含 256M 參數(shù)，能夠在消費級 GPU 上快速處理文檔，每頁文檔的處理時間僅需 0.35 秒。SmolDocling 的核心使命是將任意圖片中的復(fù)雜內(nèi)容轉(zhuǎn)化為可編輯的結(jié)構(gòu)化數(shù)據(jù)。

SmolDocling功能

DocTags 用于高效標(biāo)記：引入 DocTags，這是一種高效且簡潔的文檔表示方式，與 DoclingDocuments 完全兼容。
OCR（光學(xué)字符識別）：能夠從圖像中準(zhǔn)確提取文本。
布局和定位：保留文檔結(jié)構(gòu)和文檔元素的邊界框。
代碼識別：檢測并格式化代碼塊，包括縮進(jìn)。
公式識別：識別并處理數(shù)學(xué)表達(dá)式。
圖表識別：提取并解釋圖表數(shù)據(jù)。
表格識別：支持帶列標(biāo)題和行標(biāo)題的結(jié)構(gòu)化表格提取。
圖形分類：區(qū)分圖形和圖形元素。
標(biāo)題對應(yīng)：將標(biāo)題與相關(guān)圖像和圖形鏈接起來。
列表分組：正確組織和結(jié)構(gòu)化列表元素。
全頁轉(zhuǎn)換：處理整個頁面，包括頁面上的所有元素（代碼、方程、表格、圖表等）。
OCR 帶邊界框：使用邊界框進(jìn)行 OCR 區(qū)域識別。
通用文檔處理：適用于科學(xué)和非科學(xué)文檔的訓(xùn)練。
無縫 Docling 集成：可以導(dǎo)入到 Docling 并以多種格式導(dǎo)出（如 HTML、Markdown 等）。
快速推理：在 A100 GPU 上平均每頁處理時間為 0.35 秒。

SmolDocling：將復(fù)雜的圖像、PDF文檔高效轉(zhuǎn)換為結(jié)構(gòu)化文本.webp

模型擴(kuò)展與優(yōu)化

支持多種指令：支持多種指令，例如將頁面轉(zhuǎn)換為 DocTags、將圖表轉(zhuǎn)換為表格、將公式轉(zhuǎn)換為 LaTeX 等。
多語言支持：雖然主要支持英語，但可能通過擴(kuò)展支持更多語言。
持續(xù)改進(jìn)：改進(jìn)圖表識別、支持多頁推理、化學(xué)識別等功能。

SmolDocling應(yīng)用場景

學(xué)術(shù)研究：快速將學(xué)術(shù)論文和研究報告轉(zhuǎn)換為結(jié)構(gòu)化格式，便于提取關(guān)鍵信息。
商業(yè)文檔處理：自動轉(zhuǎn)換商業(yè)合同、報告和表格，便于企業(yè)進(jìn)行文檔存儲、檢索和分析。
技術(shù)文檔管理：將技術(shù)手冊、代碼文檔等轉(zhuǎn)換為可編輯格式，支持代碼片段的準(zhǔn)確識別和格式化。
教育領(lǐng)域：將教材、講義中的內(nèi)容（如公式、圖表）提取并轉(zhuǎn)換為易于理解的格式。
醫(yī)療文檔處理：處理醫(yī)療報告和研究論文，提取關(guān)鍵信息，輔助醫(yī)療決策。
移動與低資源設(shè)備支持：可在移動設(shè)備或資源受限的環(huán)境中運行。

SmolDocling使用方法

模型下載：可以從 Hugging Face 模型庫下載 SmolDocling。
本地部署：由于其體積小，可在普通筆記本電腦或移動設(shè)備上運行。
API 調(diào)用：可以通過 Hugging Face 提供的 API 接口調(diào)用 SmolDocling。
微調(diào)模型：開發(fā)者可以通過微調(diào)模型適配特定場景，如醫(yī)療報告解析、財務(wù)表格識別。

Hugging Face 模型庫：https://huggingface.co/ds4sd/SmolDocling-256M-preview

DEMO：https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo

收藏

PocketFlow：一款核心代碼只有100行的極簡LLM框架

上一篇

PocketFlow：一款核心代碼只有100行的極簡LLM框架

Stable Virtual Camera：使用一張圖片，可以生成360度旋轉(zhuǎn)的3D視頻

下一篇

Stable Virtual Camera：使用一張圖片，可以生成360度旋轉(zhuǎn)的3D視頻

相關(guān)文章

最新文章

最新工具

Custom Cursor

一個能讓你擁有個性化光標(biāo)的網(wǎng)站。Custom Cursor網(wǎng)站有...

橙子8設(shè)計

一站式AI電商圖片制作平臺，專為電商和跨境賣家服務(wù)。不用專業(yè)設(shè)計...

Sandspiel

一款基于細(xì)胞自動機(jī)和實時物理的開源像素沙盤游戲，玩家可以在虛擬沙...

印象地圖

這是個可以幫你記住全國省市位置的測試工具。打開網(wǎng)站就能用，選個模...

Sandtris

一款把經(jīng)典俄羅斯方塊和流沙物理效果結(jié)合的休閑游戲。玩家需要利用沙...

Maze Toys

一個以迷宮游戲為主的網(wǎng)站，提供多種類型的迷宮玩法，包括Mini、...

AiPyApp

一款以Python為核心的開源新人工智能體助手，結(jié)合大模型和 P...

Adobe Express

Adobe推出的一站式設(shè)計工具，整合了圖像、視頻、文檔/PDF、...

Intangible AI

創(chuàng)意行業(yè)空間智能AI平臺，通過簡潔的3D界面與空間智能技術(shù)解決A...

法大大iTerms

法大大推出的一站式法律AI工作臺，基于自研法律大模型的AI智能體...

人生若只如初見

用戶登錄

主站蜘蛛池模板：利津县| 垦利县| 龙南县| 平遥县| 垣曲县| 梁平县| 巴青县| 大荔县| 红河县| 新河县| 尉犁县| 霍山县| 黄石市| 深水埗区| 繁昌县| 大余县| 永顺县| 屏东市| 邓州市| 阜宁县| 淮滨县| 荔波县| 瑞安市| 上高县| 来安县| 阿拉善右旗| 镇原县| 教育| 赤城县| 昆明市| 武平县| 孝义市| 谢通门县| 余干县| 柳林县| 黄大仙区| 荆州市| 当阳市| 曲松县| 临桂县| 孟州市|