科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用( 四 )


科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用图 3. 源数据格式的直观示例
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用图 4. 基本图结构
图 5 给出了基于图的卷积网络 GFTE 的结构 。 首先将绝对位置转换为相对位置 , 然后用这些位置来生成图 。 同时 , 将纯文本嵌入到预先定义的特征空间中 , 然后使用 LSTM 来获取语义特征 。 将位置特征和文本特征连接在一起 , 并将它们传送到一个两层图卷积网络(GCN) 。 同时 , 作者使用了一个小内核算子对图像进行膨胀 , 使表格的线条更粗 。 还将图像调整为 256x256 像素 , 以便使输入的图片正常化 , 然后利用三层 CNN 计算图像特征 。 最后 , 利用节点的相对位置 , 计算出流场网格 。 利用网格中输入的像素位置计算输出 , 可以得到某个节点在某一点上的图像特征 。 这三种不同的特征都得到后 , 将生成的图的一条边上的两个节点配对 , 即 , 找到一条边上的两个节点 , 并将它们的三种不同的特征集合在一起 。 最后 , 使用 MLP 来预测两个节点是在同一行还是在同一列中 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用图 5. 基于 GCN 的 GFTE 算法的结构
4、实验结果介绍
首先 , 作者对比了不同 GFTE 模型的效果 。 第一步 , 对 GFTE-pos 进行训练 , 即利用相对位置和 KNN 算法生成图 , 只利用位置特征训练 GFTE 。 第二步 , 利用 LSTM 获取的位置特征和文本特征对网络进行训练 , 该模型标记为 GFTE pos+text 。 最后 , 在网格采样的基础上 , 进一步加入图像特征 , 训练得到本文提出的 GFTE 。 表 4 给出了不同 GFTE 模型在 FinTab 数据集上的性能 。 当引入更多种类的特征时 , 准确度总体呈上升趋势 。 当加入文本特征时 , 准确度有明显的改善 , 即水平预测和垂直预测分别提高了 10% 和 5% 。 进一步加入图像特征仍能继续提高性能 , 但提高的程度不会太大 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用表 4. 不同 GFTE 模型在垂直和水平方向上的准确度结果
表 5 给出了 GFTE 在不同数据集上的准确度结果 , 即 , 在 SciTSR 测试数据集上进行验证 , 在本文提出的 FinTab 数据集上进行测试 。 可以观察到 , 本文提出的 GFTE 算法在 SciTSR 验证数据集上达到了相当高的准确度 , 这意味着 GFTE 在训练数据足够的情况下能够很好地作为基线方法 。 另外 , 虽然 FinTab 数据集的数据源和属性与 SciTSR 数据集完全不同 , 但 GFTE 仍然取得了良好的结果 , 这表明 GFTE 具有一定的鲁棒性 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用表 5. 验证数据集和测试数据集垂直和水平关系的准确度结果
5、小结
本文基于 PDF 文件构建了一个中文金融表格数据集 FinTab , 该数据集具有多样性、充分性和全面性等特征 。 基于 FinTab , 后续可以研究并提出更多具有创新性、性能更优的表格识别算法 , 从而辅助金融类、中文表格识别任务 。 此外 , 作者提出了一种基于 GCN 的 GFTE 算法作为该数据集的基线表格识别方法 。 本文对该基线方法的性能、可能存在的问题进行了分析 , 为后续的工作打下了基础 。


推荐阅读