文档智能:数字化转型的技术基石( 三 )


2) 票据理解(Receipt Understanding):票据理解任务中,选择了 SROIE 测评比赛作为测试 。SROIE 票据理解包含1000张已标注的票据,每张票据都标注了店铺名、店铺地址、总价、消费时间四个语义实体 。通过在该数据集上微调,LayoutLM 模型在 SROIE 测评中的 F1 值高出第一名(2019)1.2个百分点,达到95.24% 。
3) 文档图像分类(Document Image Classification):对于文档图像分类任务,则选择了 RVL-CDIP 数据集进行测试 。RVL-CDIP 数据集包含有16类总记40万个文档,每一类都包含25,000个文档数据 。LayoutLM 模型在该数据集上微调之后,将分类准确率提高了1.35个百分点,达到了94.42% 。
DocBank数据集:50万文档页面,以弱监督方法获取高质量标注在许多文档理解应用中,文档布局分析是一项重要任务,因为它可以将半结构化信息转换为结构化表示形式,同时从文档中提取关键信息 。由于文档的布局和格式不同,因此这一直是一个具有挑战性的问题 。目前,最先进的计算机视觉和自然语言处理模型通常采用“预训练-微调”范式来解决这个问题,首先在预先训练的模型上初始化,然后对特定的下游任务进行微调,从而获得十分可观的结果 。
但是,模型的预训练过程不仅需要大规模的无标记数据进行自我监督学习,还需要高质量的标记数据进行特定任务的微调以实现良好的性能 。对于文档布局分析任务,目前已经有一些基于图像的文档布局数据集,但其中大多数是为计算机视觉方法而构建的,很难应用于自然语言处理方法 。此外,基于图像的标注主要包括页面图像和大型语义结构的边界框,精准度远不如细粒度的文本级标注 。然而,人工标注细粒度的 Token 级别文本的人力成本和时间成本非常高昂 。因此,利用弱监督方法,以较少的人力物力来获得带标签的细粒度文档标注,同时使数据易于应用在任何自然语言处理和计算机视觉方法上至关重要 。
为此,微软亚洲研究院的研究员们构建了 DocBank 数据集[3][4],这是一个文档基准数据集,其中包含了50万文档页面以及用于文档布局分析的细粒度 Token 级标注 。与常规的人工标注数据集不同,微软亚洲研究院的方法以简单有效的方式利用弱监督的方法获得了高质量标注 。DocBank 数据集是文档布局标注数据集 TableBank[5][6] 的扩展,基于互联网上大量的数字化文档进行开发而来 。例如当下很多研究论文的 PDF 文件,都是由 LaTeX 工具编译而成 。LaTeX 系统的命令中包含了标记作为构造块的显式语义结构信息,例如摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题 。为了区分不同的语义结构,研究员们修改了 LaTeX 源代码,为不同语义结构的文本指定不同的颜色,从而能清楚地划分不同的文本区域,并标识为对应的语义结构 。
从自然语言处理的角度来看,DocBank 数据集的优势是可用于任何序列标注模型,同时还可以轻松转换为基于图像的标注,以支持计算机视觉中的物体检测模型 。通过这种方式,可以使用 DocBank 公平地比较来自不同模态的模型,并且进一步研究多模态方法,提高文档布局分析的准确性 。
为了验证 DocBank 的有效性,研究员们使用了 BERT、RoBERTa 和 LayoutLM 三个基线模型进行实验 。实验结果表明,对于文档布局分析任务,LayoutLM 模型明显优于 DocBank 上的 BERT 和 RoBERTa 模型 。微软亚洲研究院希望 DocBank 可以驱动更多文档布局分析模型,同时促进更多的自定义网络结构在这个领域取得实质性进展 。

文档智能:数字化转型的技术基石

文章插图
DocBank 数据集的数据样例
四步构建 DocBank 数据集
文档智能:数字化转型的技术基石

文章插图
DocBank 的处理步骤
研究员们使用 Token 级标注构建 DocBank 数据集,以支持自然语言处理和计算机视觉模型的研究 。DocBank 的构建包括四个步骤:文档获取、语义结构检测、Token 级别文本标注、后处理 。DocBank 数据集总共包括50万个文档页面,其中训练集包括40万个文档页面,验证集和测试集分别包括5万个文档页面(点击阅读原文,访问DocBank 数据集网站了解更多具体信息) 。
文档获取
研究员们在 arXiv.com 上获取了大量科研论文的 PDF 文件,以及对应的 LaTeX 源文件,因为需要通过修改源代码来检测语义结构 。这些论文包含物理、数学、计算机科学以及许多其他领域,非常有利于 DocBank 数据集的多样性覆盖,同时也可以使其训练出的模型更加鲁棒 。目前这项工作聚焦在英文文档上,未来将会扩展到其他语言 。


推荐阅读