科技资讯眺望|三篇论文，纵览深度学习在表格识别中的最新应用( 五 ) 机器之心分析师网络作者：仵冀颖编辑：

二、TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images
论文地址：
本文为发表在 ICDAR 2019 中的一篇文章。与上一篇文章聚焦金融类表格不同，本文关注的是一般用途的表格检测与结构识别。随着配备摄像头等移动设备的激增，越来越多的客户通过这些设备上传文档，使得从这些图像中提取信息的需求更加迫切。通常，这些文档中包含存储在布局和视觉外观上有多种变化的表格数据。因此，从这些文档中提取信息的一个关键组成部分是将这些表格图像中的数据数字化。然而，由于表格结构的多样性，以及用于视觉上分离表格组件的图形元素的变化，使得从这些图像中提取数据成为一个非常具有挑战性的问题。本文提出了一个新的端到端深度学习模型 TableNet ，它利用了表格检测和表格结构识别这两个任务之间固有的相互依赖性，利用一个基础网络通过预先训练的 VGG-19 特性进行初始化。接下来是两个解码器分支，用于 1）表格区域的分段和 2）表格区域内列的分段。然后，使用基于规则的行提取来提取表格单元格中的数据。
本文采用多任务方法对深度模型进行训练。该模型接受一个输入图像，并为表格和列分别生成两个不同的语义标记的输出图像。该模型中，表格检测器和列检测器共享 VGG-19 编码层，而两个任务的解码器是分开的。共享的公共层通过从表格检测器和列检测器接收到的梯度进行重复训练，而解码器是独立训练的。然后利用基本数据类型的语义信息进一步提升模型性能。利用 VGG-19 作为基础网络（在 ImageNet 数据集上预先训练）可以有效利用通过在 ImageNet 上进行训练学习的低级特征形式的先验知识。
1、方法介绍
1.1 TableNet
在传统的基于深度学习的表格识别问题中，表格检测和列检测通常被视为两个可以独立解决的单独的问题。然而，如果文档中的所有列都是先验已知的，则可以很容易地确定表格区域。但根据定义，列是垂直对齐的字 / 数字块。因此，独立搜索列会产生大量的误报，而提前判定表格区域可以大大提高列检测的结果（因为表格和列都有公共区域）。因此，使用卷积滤波器来检测表格，进一步应用列检测滤波器来加强，能够大大提高模型的性能。本文所提出的模型就是基于这种思想，同时引入了 Long 等人提出的用于语义分割的编码器模型[9] 。模型的编码器在表格检测和列检测任务中都是通用的，但是解码器作为表格和列的两个不同分支出现。具体地说，强制编码层使用文档表格和列的基本结构进行训练。但是，对于表格和列分支，解码层是分开的。因此，需要训练两个图。
文档中表格的检测问题与真实图像中的对象检测问题类似，可以利用表格的视觉特征检测表格 / 列。区别在于，表格 / 列检测中的噪声容忍度比对象检测中的小得多。因此，本文采用了一种逐像素预测表格和列区域的方法，而不是对表格和列的边界进行回归。本文提出的 TableNet 整体结构见图 1 。
图 1：（a）来自 Marmot 数据集的训练样本图像，突出显示了文本；（b） TableNet：该模型由 VGG-19 作为基础网络的预训练层，从 conv1 到 pool5 的层用作表格和列图的通用编码器层，编码器层后的两个解码器分支 conv7 column 和 conv7 table 生成单独的表格预测和列预测结果

科技资讯眺望|三篇论文，纵览深度学习在表格识别中的最新应用( 五 )

推荐阅读

南京警方通报大学生“偷外卖”事件:有工作，偷外卖系报复行为

网络游戏|魔兽世界怀旧服NAXX成神的职业，暴雪设计师算是照顾了一回！

中新经纬|佐力药业：4名董监高拟减持不超2.03%股份

哈利波特|《霍格沃兹遗产》会登陆NS：但WB不愿透露发行形式

男孩叛逆期怎么沟通，男孩叛逆期怎么沟通呢

冻顶乌龙茶价格,冻顶乌龙茶因何久负盛名

老人|老人被狗绳绊倒身亡，给这些人敲响警钟！

「钱江晚报小时新闻」海警雷达搜索发现4艘船舶整队航行，他们为啥拒不停船？傍晚时分

欧洲硅谷在哪里听留学中介说爱尔兰现在计算机找工作不错，有了解欧洲计算机行业发展的人介绍一下吗

我想知道有没有人和我一样无聊，对啥都没有兴趣，啥也不想干，不知道活着的意义

虐心最帅|曾单挑吕布，战平马超，曹操手下第一猛将

评分|花120万购买一个账号，玩家还觉得很划算，这款网游人均土豪？

北京日报|北京最新天气预报：注意保暖！本市下午部分地区有零星小雨

『河青新闻网廊坊新闻』大城县中医医院·复工复产 |内科全力以赴

女屌丝怎样找男朋友

明星八卦|有一种差距叫00后男明星粉丝数，周震南最少，易烊千玺一骑绝尘

烹饪|茄子和它天生是一对，多做给家人吃，简单一煮，比吃肉还营养！

「奔驰C级」开奔驰C200L的都是什么阶层的人？月薪6000能不能养得起？

孟晚舟@?重现“孟晚舟事件”？美国突然公布，谁也没想到，一切来得如此快

王者联盟|王者荣耀：新版本大洗牌，中路法王或将重新崛起