IBM和Hugging Face联合开源多模态小模型SmolDocling

半岛体育 bandaotiyu 分类>>

联系半岛体育 Contact bandaotiyu

24小时服务热线：0898-08980898

公司地址：江西省南昌市
客服QQ：123456789
传真：400-123-4567

您所在的位置是：首页 > 半岛体育 > 半岛体育APP

IBM和Hugging Face联合开源多模态小模型SmolDocling

2025-03-21 21:52:22

浏览次数：次

返回列表

　　半岛体育- 半岛体育官方网站- 百家乐棋牌返水最高平台 2025最新

IBM和Hugging Face联合开源多模态小模型SmolDocling

　　SmolDocling 基于 Hugging Face 的 SmolVLM 架构，可以处理整个页面的内容，并通过生成“DocTags”（一种新型通用标记格式）精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不同，SmolDocling 采用端到端的转换方法，只需 256M 参数的规模就能准确捕获文档元素的内容、结构和空间位置。研究团队称，它在各种文档类型中都表现出色，包括商业文档、学术论文、技术报告、专利和表格等，能够正确再现代码列表、表格、方程式、图表和列表等多样化文档特征。

　　从架构上来说，它所基于的 SmolVLM-256M 架构由两大核心部分组成：视觉编码器和语言骨干。视觉编码器采用 SigLIP base patch-16/512（93M 参数）作为视觉骨干，与 2.2B 版本的同一模型相比，其训练数据重新平衡，更加强调文档理解（41%）和图像描述（14%），结合了 Cauldron、Docmatix 数据集并添加了 MathWriting。模型采用比较激进的像素混洗方法，将每个 512x512 图像块压缩为 64 个视觉标记。

　　此外，研究人员还针对布局、表格、图表、代码和公式等特定任务准备了专门的数据集。布局数据包括 DocLayNet v2（6 万页）、WordScape（6.3 万页）和 SynthDocNet（25 万页）；表格数据来自 PubTables-1M、FinTabNet 和 WikiTableSet；图表数据基于 FinTabNet 的 9 万个表格生成，总计 250 万个图表；代码数据集包含 930 万代码片段，覆盖 56 种编程语言；公式数据集则包含 550 万个特殊公式。

上一篇：如何推动“文体旅”产业高质量发展？万宁：将朝三大方向发力

下一篇：1688好生意大会举行 AI元年AI技术帮买卖双方做好生意

网站首页

关于半岛体育

半岛体育

产品模型

留言板

户外常识

联系半岛体育

半岛体育 bandaotiyu 分类>>

IBM和Hugging Face联合开源多模态小模型SmolDocling

友情链接：