文章插图
DocBank 中训练、验证和测试集的年份统计信息
DocBank 与现有的文档布局分析数据集(包括 Article Regions、GROTOAP2、PubLayNet 和 TableBank)的比较显示,DocBank 在数据集的规模和语义结构的种类上都超过了现有的数据集 。而且,表格中所有数据集都是基于图像的,只有DocBank 同时支持基于文本和基于图像的模型 。由于 DocBank 是基于公开论文自动构建的,因此具有可扩展性,可以随着时间继续扩大数据规模 。
文章插图
DocBank 与现有的文档布局分析数据集的比较
评价指标
由于模型的输入是序列化的二维文档,所以典型的 BIO 标签评估并不适合这个任务 。每个语义单元的 Token 可以在输入序列中不连续地分布 。针对基于文本的文档布局分析方法,研究员们提出了一个新的指标,其定义如下:
文章插图
实验结果
文章插图
LayoutLM、BERT、RoBERTa 模型在 DocBank 测试集的准确性
在 DocBank 的测试集上评估了六个模型后,研究员们发现 LayoutLM 在摘要、作者、表格标题、方程式、图形、页脚、列表、段落、节标题、表格、文章标题标签上得分最高 。在其他标签上 LayoutLM 与其他模型的差距也较小 。这表明在文档布局分析任务中,LayoutLM 结构明显优于 BERT 和 RoBERTa 结构 。
文章插图
测试集上预训练 BERT 模型和预训练 LayoutLM 模型的样例输出
研究员们又选取了测试集的一些样本,将预训练 BERT 和预训练 LayoutLM 的输出进行了可视化 。可以观察到,序列标记方法在 DocBank 数据集上表现良好,它可以识别不同的语义单元 。对于预训练的 BERT 模型,某些 Token 没有被正确标记,这表明仅使用文本信息仍不足以完成文档布局分析任务,还应考虑视觉信息 。
与预训练的 BERT 模型相比,预训练的 LayoutLM 模型集成了文本和布局信息,因此它在基准数据集上实现了更好的性能 。这是因为二维的位置嵌入可以在统一的框架中对语义结构的空间距离和边界进行建模,从而提高了检测精度 。
结束语信息处理是产业化的基础和前提,如今对处理能力、处理速度和处理精度也都有着越来越高的要求 。以商业领域为例,电子商业文档就涵盖了采购单据、行业报告、商务邮件、销售合同、雇佣协议、商业发票、个人简历等大量繁杂的信息 。机器人流程自动化(Robotic Process Automation,RPA) 行业正是在这一背景下应运而生,利用人工智能技术帮助大量人工从繁杂的电子文档处理任务中解脱出来,并通过一系列配套的自动化工具提升生产力,RPA的关键核心之一就是文档智能技术 。
传统的人工智能技术往往需要利用大量的人工标注数据来构建自动化机器学习模型,然而标注数据的过程费时费力,通常成为产业化的瓶颈 。LayoutLM 文档理解预训练技术的优势在于,利用基于深度神经网络的自学习技术,通过大规模无标注数据学习基础模型,之后再通过迁移学习技术仅需少量标注数据即可达到人工处理文档的水平 。目前,LayoutLM 技术已经成功应用于微软的核心产品和服务中 。
为了推动文档智能技术的发展,LayoutLM 的相关模型代码和论文也已经开源(https://aka.ms/layoutlm),并受到了学术界和工业界的广泛关注和好评,据媒体报道在金融智能分析领域已经有机构开始采用 LayoutLM 模型[7]进行流程自动化的集成和部署,同时也有相关机构采用 LayoutLM 模型[8]进行文档视觉问答(Document VQA)方面的研究工作 。相信随着传统行业数字化转型的逐步深入,文档智能研究工作将被更多的个人和企业关注,进一步推动相关技术和行业的发展 。
附录
[1]LayoutLM 论文:https://arxiv.org/abs/1912.13318
[2]LayoutLM 代码&模型:https://aka.ms/layoutlm
[3] DocBank 论文:https://arxiv.org/abs/2006.01038
[4] DocBank 数据集&模型:https://github.com/doc-analysis/DocBank
[5] TableBank 论文:https://arxiv.org/abs/1903.01949
[6] TableBank 数据集&模型:https://github.com/doc-analysis/TableBank
[7] “Injecting Artificial Intelligence into Financial Analysis”:https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949
[8] “Document Visual Question Answering”:https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee
推荐阅读
- 如何用手机将pdf转换成word文档?具体怎么转?
- 关于下一代智能手机的谈论 人工智能和云赋予手机完全个性化
- 基于无线传感器网络的智能交通系统
- 老板来电让你转钱,不要轻易转;小心人工智能模仿声音的诈骗手段
- 人工智能和机器学习是影响融入移动应用开发的?
- 怎么把ai格式的文件转化为word文档?
- 三星|手机越来越贵了!全球智能手机均价逼近2000元:韩国最贵
- AI人工智能:JAVA教你拍照识别文字 并语音播报
- 拆解报告:小度智能音箱 2 红外版
- word如何打字不把原来的内容覆盖,word文档打字自动覆盖?