半岛体育 bandaotiyu 分类>>
IBM和Hugging Face联合开源多模态小模型SmolDocling
半岛体育- 半岛体育官方网站- 百家乐棋牌返水最高平台 2025最新
SmolDocling 基于 Hugging Face 的 SmolVLM 架构,可以处理整个页面的内容,并通过生成“DocTags”(一种新型通用标记格式)精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不同,SmolDocling 采用端到端的转换方法,只需 256M 参数的规模就能准确捕获文档元素的内容、结构和空间位置。研究团队称,它在各种文档类型中都表现出色,包括商业文档、学术论文、技术报告、专利和表格等,能够正确再现代码列表、表格、方程式、图表和列表等多样化文档特征。
从架构上来说,它所基于的 SmolVLM-256M 架构由两大核心部分组成:视觉编码器和语言骨干。视觉编码器采用 SigLIP base patch-16/512(93M 参数)作为视觉骨干,与 2.2B 版本的同一模型相比,其训练数据重新平衡,更加强调文档理解(41%)和图像描述(14%),结合了 Cauldron、Docmatix 数据集并添加了 MathWriting。模型采用比较激进的像素混洗方法,将每个 512x512 图像块压缩为 64 个视觉标记。
此外,研究人员还针对布局、表格、图表、代码和公式等特定任务准备了专门的数据集。布局数据包括 DocLayNet v2(6 万页)、WordScape(6.3 万页)和 SynthDocNet(25 万页);表格数据来自 PubTables-1M、FinTabNet 和 WikiTableSet;图表数据基于 FinTabNet 的 9 万个表格生成,总计 250 万个图表;代码数据集包含 930 万代码片段,覆盖 56 种编程语言;公式数据集则包含 550 万个特殊公式。