科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用( 五 )


二、TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用论文地址:
本文为发表在 ICDAR 2019 中的一篇文章 。 与上一篇文章聚焦金融类表格不同 , 本文关注的是一般用途的表格检测与结构识别 。 随着配备摄像头等移动设备的激增 , 越来越多的客户通过这些设备上传文档 , 使得从这些图像中提取信息的需求更加迫切 。 通常 , 这些文档中包含存储在布局和视觉外观上有多种变化的表格数据 。 因此 , 从这些文档中提取信息的一个关键组成部分是将这些表格图像中的数据数字化 。 然而 , 由于表格结构的多样性 , 以及用于视觉上分离表格组件的图形元素的变化 , 使得从这些图像中提取数据成为一个非常具有挑战性的问题 。 本文提出了一个新的端到端深度学习模型 TableNet , 它利用了表格检测和表格结构识别这两个任务之间固有的相互依赖性 , 利用一个基础网络通过预先训练的 VGG-19 特性进行初始化 。 接下来是两个解码器分支 , 用于 1)表格区域的分段和 2)表格区域内列的分段 。 然后 , 使用基于规则的行提取来提取表格单元格中的数据 。
本文采用多任务方法对深度模型进行训练 。 该模型接受一个输入图像 , 并为表格和列分别生成两个不同的语义标记的输出图像 。 该模型中 , 表格检测器和列检测器共享 VGG-19 编码层 , 而两个任务的解码器是分开的 。 共享的公共层通过从表格检测器和列检测器接收到的梯度进行重复训练 , 而解码器是独立训练的 。 然后利用基本数据类型的语义信息进一步提升模型性能 。 利用 VGG-19 作为基础网络(在 ImageNet 数据集上预先训练)可以有效利用通过在 ImageNet 上进行训练学习的低级特征形式的先验知识 。
1、方法介绍
1.1 TableNet
在传统的基于深度学习的表格识别问题中 , 表格检测和列检测通常被视为两个可以独立解决的单独的问题 。 然而 , 如果文档中的所有列都是先验已知的 , 则可以很容易地确定表格区域 。 但根据定义 , 列是垂直对齐的字 / 数字块 。 因此 , 独立搜索列会产生大量的误报 , 而提前判定表格区域可以大大提高列检测的结果(因为表格和列都有公共区域) 。 因此 , 使用卷积滤波器来检测表格 , 进一步应用列检测滤波器来加强 , 能够大大提高模型的性能 。 本文所提出的模型就是基于这种思想 , 同时引入了 Long 等人提出的用于语义分割的编码器模型[9] 。 模型的编码器在表格检测和列检测任务中都是通用的 , 但是解码器作为表格和列的两个不同分支出现 。 具体地说 , 强制编码层使用文档表格和列的基本结构进行训练 。 但是 , 对于表格和列分支 , 解码层是分开的 。 因此 , 需要训练两个图 。
文档中表格的检测问题与真实图像中的对象检测问题类似 , 可以利用表格的视觉特征检测表格 / 列 。 区别在于 , 表格 / 列检测中的噪声容忍度比对象检测中的小得多 。 因此 , 本文采用了一种逐像素预测表格和列区域的方法 , 而不是对表格和列的边界进行回归 。 本文提出的 TableNet 整体结构见图 1 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用图 1:(a)来自 Marmot 数据集的训练样本图像 , 突出显示了文本;(b) TableNet:该模型由 VGG-19 作为基础网络的预训练层 , 从 conv1 到 pool5 的层用作表格和列图的通用编码器层 , 编码器层后的两个解码器分支 conv7 column 和 conv7 table 生成单独的表格预测和列预测结果


推荐阅读