文档智能:数字化转型的技术基石( 二 )


文档结构和视觉信息不可忽视
很多情况下,文档中文字的位置关系蕴含着丰富的语义信息 。以下图的表单为例,表单通常是以键值对(key-value pair)的形式展示的(例如 “DATE: 11/28/84”) 。一般情况下,键值对的排布是以左右或者上下的形式,并且有特殊的类型关系 。类似地,在表格文档中,表格中的文字通常是网格状排列,并且表头一般出现在第一列或第一行 。通过预训练,这些与文本天然对齐的位置信息可以为下游的信息抽取任务提供更丰富的语义信息 。

文档智能:数字化转型的技术基石

文章插图
表单示例
对于富文本文档,除了文字本身的位置关系之外,文字格式所呈现的视觉信息同样可以帮助下游任务 。对文本级(token-level)任务来说,文字大小、是否倾斜、是否加粗,以及字体等富文本格式都能够体现相应的语义 。例如,表单键值对的键位(key)通常会以加粗的形式给出;而在一般文档中,文章的标题通常会放大加粗呈现,特殊概念名词会以斜体呈现,等等 。对文档级(document-level)任务来说,整体的文档图像能提供全局的结构信息 。例如个人简历的整体文档结构与科学文献的文档结构是有明显的视觉差异的 。这些模态对齐的富文本格式所展现的视觉特征,可以通过视觉模型抽取,再结合到预训练阶段,从而有效地帮助下游任务 。
将视觉信息与文档结构融入到通用预训练方案
建模上述信息需要寻找这些信息的有效表示方式 。然而现实中的文档格式丰富多样,除了格式明确的电子文档外,还有大量扫描式报表和票据等图片式文档 。对于计算机生成的电子文档,可以使用对应的工具获取文本和对应的位置以及格式信息;对于扫描图片文档,则可以使用 OCR 技术进行处理,从而获得相应的信息 。两种不同的手段几乎可以使用现存的所有文档数据进行预训练,保证了预训练数据的规模 。
文档智能:数字化转型的技术基石

文章插图
基于文档结构和视觉信息的 LayoutLM 模型结构
利用上述信息,微软亚洲研究院的研究员们在现有的预训练模型基础上添加了二维位置嵌入(2-D Position Embedding)和图嵌入(Image Embedding)两种新的 Embedding 层,可以有效地结合文档结构和视觉信息:
1) 二维位置嵌入 2-D Position Embedding:根据 OCR 获得的文本边界框 (Bounding Box),能获取文本在文档中的具体位置 。在将对应坐标转化为虚拟坐标之后,则可以计算该坐标对应在 x、y、w、h 四个 Embedding 子层的表示,最终的 2-D Position Embedding 为四个子层的 Embedding 之和 。
2) 图嵌入 Image Embedding:将每个文本相应的边界框 (Bounding Box) 当作 Faster R-CNN 中的候选框(Proposal),从而提取对应的局部特征 。其特别之处在于,由于 [CLS] 符号用于表示整个输入文本的语义,所以同样使用整张文档图像作为该位置的 Image Embedding,从而保持模态对齐 。
在预训练阶段,研究员们针对 LayoutLM 的特点提出了两个自监督预训练任务:
1) 掩码视觉语言模型(Masked Visual-Language Model,MVLM):大量实验已经证明 MLM 能够在预训练阶段有效地进行自监督学习 。研究员们在此基础上进行了修改:在遮盖当前词之后,保留对应的 2-D Position Embedding 暗示,让模型预测对应的词 。在这种方法下,模型根据已有的上下文和对应的视觉暗示预测被掩码的词,从而让模型更好地学习文本位置和文本语义的模态对齐关系 。
2) 多标签文档分类(Multi-label Document Classification,MDC):MLM 能够有效的表示词级别的信息,但是对于文档级的表示,还需要将文档级的预训练任务引入更高层的语义信息 。在预训练阶段研究员们使用的 IIT-CDIP 数据集为每个文档提供了多标签的文档类型标注,并引入 MDC 多标签文档分类任务 。该任务使得模型可以利用这些监督信号,聚合相应的文档类别并捕捉文档类型信息,从而获得更有效的高层语义表示 。
实验结果:LayoutLM 的表单、票据理解和文档图像分类水平显著提升
预训练过程使用了 IIT-CDIP 数据集,这是一个大规模的扫描图像公开数据集,经过处理后的文档数量达到约11,000,000 。研究员们随机采样了1,000,000个进行测试实验,最终使用全量数据进行完全预训练 。通过千万文档量级的预训练并在下游任务微调,LayoutLM 在测试的三个不同类型的下游任务中都取得了 SOTA 的成绩,具体如下:
1) 表单理解(Form Understanding):表单理解任务上,使用了 FUNSD 作为测试数据集,该数据集中的199个标注文档包含了31,485个词和9,707个语义实体 。在该数据集上,需要对数据集中的表单进行键值对(key-value)抽取 。通过引入位置信息的训练,LayoutLM 模型在该任务上取得了显著的提升,将表单理解的 F1 值从70.72 提高至79.2 。


推荐阅读