AI研习丨洪宇:信息抽取的常识与前沿

文章图片

文章图片
信息抽取是自然语言处理(NLP)研究领域的常青树之一 , 是多项应用研究的重要基础 , 是与多学科研究交叉(如aspecttermextraction)的一种技术 。 主要包括事件抽取(EventExtraction/NuggetDetection)、关系抽取(EntityRelationExtraction)、属性抽取(AspectTermExtraction)、槽填充(SlotFilling)、名实体识别(NamedEntityRecognition)和实体链接(EntityLinking)这些门类 。 本报告仅针对其中的事件抽取进行回顾 , 包括基础神经网络结构 , 以及近几年相应领域的前沿研究进行概述 。
1神经NLP基础通常 , 我们在处理语言时 , 采用的基本手段可以用编码、计算和解码三板斧予以概括 。
编码的目的是将语言符号转化为方便计算的数值化表示(也叫做分布式表示) , 比如将词投影到向量空间 , 形成一个向量表示 。
计算的方式不善枚举 , 但在作用上可以粗略分为三种 , 第一种是对编码所得的数值化表示进行变形(深度学习过程中往往称为激活);第二种是演算(比如矩阵之间) , 借以实现信息融合、加权和交互等作用;第三种是参数求真 , 也就是训练中需要重点考虑的调参 , 包括数学模型本身的参数 , 以及人工设定的超参 。
解码的任务是将计算所得的数值化表示转化为任务相关的记号 。 值得注意的是 , 如果将上述解码记号定义为目标语言序列 , 那么编码和解码过程就非常类似于seq2seq的学习过程(比如机器翻译过程);但将上述记号定义为类型标记 , 那么编码和解码过程实际上等价于分类过程 。 所以 , 解码的目标比较灵活 , 往往根据具体任务的需要进行设定 。
【AI研习丨洪宇:信息抽取的常识与前沿】将神经网络应用于NLP领域 , 也秉承了上述编码、计算和解码的基本处理思路 , 如果说有什么不同之处 , 无非是将这三板斧用神经网络予以实现而已 。 所以 , 大家最近最大的感受 , 似乎是NLP领域处处都“神经” 。 信息抽取也一样 , 因此也可以把这里的研究称为神经信息抽取(NIE) 。 图1中给出了许多神经网络架构 , 其中 , 以卷积神经网络(CNN)和循环神经网路(RNN)为核心架构的NIE模型 , 在近十年的研究中陆续出现 。 除了直接将CNN和RNN在NIE上实现应用研究的案例 , 将许多有趣的元素融入其中的经验性研究也随之涌现 , 比如考虑借助框架语义(FrameNET)和AMR语义依存的神经表示学习策略 。 除此之外 , 注意力机制、对抗机制和交互机制也被陆续引入上述模型的扩展研究 , 并成为使之得以增强的重要保证 。

文章图片
图1神经网络结构纵览(未包含注意力机制对抗机制、交互机制和图卷积等模型)
近期 , 为了获得更好的表示学习方法 , 以Transformer为基础的预训练模型已经成为神经NLP的必备良药(见图2) , NIE的研究在2019年出现了结合BERT的相关工作 。 那么还有哪些除了强化学习尚未在NIE中全面铺开以外 , 神经网络的大部分模型在信息抽取(尤其是事件抽取)中几乎一一得以大显身手 。 举个系统的例子 。 比如 , 我们考虑用BERT的预训练模型进行词的初始化编码 , 其中就有了Transformer的影子;再向其中进行模型的细化 , 就会领教多头注意力机制、残差网络层、MASK门控和任务驱动预训练等有趣的方法 。 当然 , 如果以BERT及其子模型为基础 , 可能大部分现有的预训练模型家族都可以很容易理解 。 并且 , 值得应用性研究人员注意的是 , 就2019年的研究进展而言 , 除了BERT , 大部分预训练模型家族成员(见图2)尚未在NIE领域得到应用与验证 。

文章图片
图2预训练模型纵览(统计截至2019年12月)
2引神经事件抽取(NeuralEventDetection)
事件抽取的目标是寻找句子中的事件触发词(比如attack)、论元(与触发词有关的名实体) , 以及论元角色(attacker还是victim) 。 其本质是词一级的分类任务 , 即将某个词或名实体划分到特定的事件类型、论元角色类型或普通的词类 。 因此 , 虽然输入模型的一条信息往往被指定为语句 , 但实际上事件抽取考虑的问题仍然是“这个词到底是什么” 。 所以 , 当看到ACE评测会议提供的大概40M左右(注:占磁盘空间的量)的秀珍数据集时(或者TAC-KBP提供的数据) , 请切勿低估其中的样本总量 , 原因在于每个词都是候选、都是样本 。
根据这一任务定义 , 似乎只需要认知词义就可以形成有效的抽取方法 。 如果确信这一点 , 大家可以尝试单一地使用图2中的不同预训练模型构建抽取系统(NIE中预训练模型性能的全面检验尚未被报道过) 。 但是 , 在本报告中并不提倡这一做法 , 原因包括两个方面 。 其一 , 预训练的词向量被预先定义为语义空间中的一个点 , 这一定义并不完美 , 我们在这个报告的详细讲解中 , 尝试证明 , 词义在语义空间中实际上应该对应一个迷你的子空间;其二 , 虽然经过大规模数据的训练 , 但所涉猎的领域仍然有局限性 , 词义可以因为领域或主题的异同 , 有着较大的变化 。 上述两点可以用于解释现有预训练模型需要微调的原因 。 总之 , 我们建议预训练模型仍然只能用于计算词义的初始化表示 , 并结合其他神经网络模型 , 在编码、计算和解码过程中 , 形成解决特定任务(比如NIE任务)的专门模型 。 在事件抽取中也是如此 , 一个词到底是不是触发词、触发了什么事件、关联于何种名实体、唤起了何种角色 , 都需要结合局部甚至全局上下文、主题分布和语用特征进行联合处理 。 下面将枚举几项有代表性的工作 , 包括CNN和RNN的联合模型、传统策略与神经网络技术的过渡模型、生成对抗机制的应用模型 。 其他并未包含的模型请参考讲稿或宣讲PPT 。
2.1CNN与RNN的结合
正如我们所知 , CNN模型的提出来自于图像处理领域 , 因此本质上更适应图像的表示学习 , RNN因其循环计算 , 在处理诸如语言的符号序列方面有着不俗的表现 。 那么 , 将两者结合是否可行?Feng等在2016年利用CNN和RNN构建联合模型 , 并应用于事件抽取 。
图3给出了这一模型的总体架构 , 其核心操作集中在编码阶段 。 值得首先提示的是 , 这一模型并未执行双重编码(融合) , 而是完成了不同编码特征的合并(拼接) 。 其中 , 集成了长短期记忆单元的双向RNN(Bi-LSTM)对输入语句中的每个词进行了编码 , 理想情况下 , 这一编码过程能够将远距离依赖的上下文信息代入当前词义的表示学习;CNN则独立地执行了另一次编码 , 将当前词及其前后的局部上下文代入卷积特征的表示学习 。 在此基础上 , 两次编码所得的特征被最终拼接在一起 , 形成当前词的分布式表示 , 并引入后续的解码过程(分类判别器) 。

文章图片
图3结合CNN与RNN的事件抽取模型
这一工作的特点是将RNN和CNN各自的优势均给与发挥的机会 , 前者借助语言的序列化属性一步步地、逐一地从上下文中摄取关联词信息 , 并将其用于当前词的词义表示;后者则较为刚性 , 将毗连的词结合为一个统一的特征 , 从而为短语级的语言单位形成语义表示 。 实验证明 , 这一方法在事件抽取中能够获得极高的准确度(P) 。 但遗憾的是 , 这一方法对每个词的语义表示增加了额外的约束 , 使得召回率较低 。
2.2传统与现代的有机结合
事件抽取研究特别讲究协作 , 在早期的研究中 , 人们已经发现触发词的正确识别 , 能够积极影响事件关联名实体(参与者)的确定 , 以及参与者角色的分类 。 我们在2011年也证明了名实体类型能够反向辅助判断触发词的分类 。 也因此 , Qi等在2013年提出了联合抽取模型 , 也就是将触发词、参与者和角色等 , 作为一个整体进行抽取并互为辅助 。 这些早期的经验性研究有着较高的参考价值 。
Nguyen等在2016年首次利用神经网络完成了一套联合抽取模型 , 如图4所示 。 虽然看起来较为复杂 , 但模型中实际使用的神经网络仅仅为BiLSTM 。 特点在什么地方?实际上 , Nguyen等继承了联合模型的特性 , 将触发词利用Bi-LSTM进行编码后 , 又将这一编码结合名实体进行联合编码 , 在进行表示学习的过程中 , 同时进行触发词识别和名实体角色分类 。 因此 , 如果将触发词识别和名实体角色分类看成两个子任务 , Nguyen等的模型实际上形成了一套利用表示学习的多任务框架 。

文章图片
图4基于Bi-LSTM的事件联合抽取模型
2.3对抗机制的应用
2018年 , 我们首次将生成对抗机制应用于事件抽取 。 生成对抗网络并未限定神经网络的类型 , 其实际上是构建在任何神经网络上的一种生成对抗机制 。 其中 , 我们可以用某一种神经网络构建生成器 , 使其具备对词语生成分布式表示的能力(编码能力);在此基础上 , 利用另一套神经网络建立判别器 , 使其具备对特定编码进行分类判断的能力(解码能力) 。 为了提高生成器与判别器各自的能力 , 可以引入对抗机制 , 使生成器尽量制造虚假的词义表示 , 并同时训练判别器识别伪造的信息并作出正确分类的能力 。
训练过程中 , 生成对抗有一个平衡点 , 就是生成器和判别器都将在对抗的尾声达到一种局部最优 , 此时 , 无论前者的造假能力或是后者的鉴别能力都将达到极限 , 不再发生波动 。 我们考虑到这一因素 , 形成了合作与对抗的联合网络 , 如图5所示 。 其包含两个通道 , 每个通道内都设置了一个生成器和判别器 , 生成器都将用于词语的编码 , 判别器都被用于解码 。 区别在于 , 一个通道中的编码器专门学习生成可靠的词义表示 , 并辅助判别器作出最优的触发词分类 , 所以称为合作网络;另一个通道执行对抗 , 编码器尽量造假 , 判别器尽量对抗编码器进行有效分类 , 所以称为对抗网络 。 在同一个任务中 , 上述两个通道同时工作 , 并在期间将造假生成器产出的分布式向量提供给合作网络中的生成器 , 并用其作为参照 , 过滤噪声信息 。 从而借助对抗生成获得尽量多的虚假信息 , 并使得合作通道有了可供修正的参照物 。 在实际操作中 , 我们将Bi-LSTM用于构建双通道中的生成器 , 并利用感知机形成判别器 。 这一模型在实验中体现出较好的性能 , 并在优化的过程中 , 确保了准确率和召回率相对的落差不会过大 。

文章图片
图5利用生成对抗的双通道模型
2.4对抗与增强技术的结合
2019年 , Lu等在对抗的基础上 , 融入了模型增强技术 。 值得注意的是 , 我们并不认为这一研究中的增强技术隶属于规范的强化学习 , 但在思想上有着类似之处 。 总体上 , Lu等希望建立一种优化抽取模型的增强技术 , 核心思想是将模型的学习焦点暂时地脱离已知的触发词 , 更多地依赖词的上下文 。 例如将一个触发词(袭击)删除掉 , 其上下文中的伤亡、受害者等信息能够辅助模型猜测这个删除的触发词也许就是指向了袭击事件 。 如果这一思路得以实现 , 可能会从两个方面受益 。 其一 , 假设触发词是如此地少见或者说奇特(比如“鞭刑”) , 并且我们没有任何已知的知识用以训练事件抽取模型对其进行识别 , 那么 , 仅仅依赖上下文进行词义的猜测和触发词类型判别 , 就会发挥积极的作用 。 其二 , 因为上述优点 , 模型将变得较为健壮;换句话说 , 对于训练数据中的标注样本的依赖程度将有望降低 。
图6是Lu等的模型架构 。 同样地 , 该模型也设置了两个通道 , 完成的是一种多任务数据共享的学习过程 。 一条通道在编码过程中 , 集中学习词的表示方法 , 并尽量将学习到的表示用于触发词判别的优化;另一通道则引入了生成对抗机制 , 着力去除目标词项的信息而加强上下文信息的表示学习 , 从而实现上述上下文单一依赖的触发词分类判别 。 在实用过程中 , 两个通道中的神经网络模型同时运行 , 形成词和上下文独立的分布式表示 , 并拼接在一起形成统一的表示 。 由此 , 我们也可以注意到 , 这种表示的优势在于“此弱彼强”的模式 , 即当词义能够发挥作用时 , 上下文的信息仅仅用作辅助判别的特征 , 当词义无法获得有效表示的时候 , 上下文信息的表示则成为分类的主要依赖 。 我们认为 , 这一模型在实用过程中 , 将发挥更显著的增强效果 。

文章图片
图6利用对抗的抽取模型增强技术
(节选自“AI前沿讲习班第8期——自然语言理解、生成与人机对话”)
洪宇苏州大学教授 。 主要研究方向为自然语言处理和人工智能 。 合作参与多项国际评测 , 包括TAC-KBP信息抽取评测 , 2014—2016年期间 , 在事件检测和SlotFilling(ColdStart)任务中 , 曾获综合排名第一和第二的评测成绩 。 参与制定事件关系标准及数据标注规范 , 以及低资源信息抽取、垂直领域信息抽取和跨模态信息抽取的项目指南 。
推荐阅读
- 新生代女乒谁可夺大满贯?伊藤美诚被看好,平野美宇也领先孙颖莎
- 吴镇宇儿子自曝有社交焦虑,网友:逼着孩子年少成名的父母都看看
- 中国女排奥运名单生变龚翔宇替补难寻,昔日奥运福将黯淡离场
- 最美接应龚翔宇,13岁用菜刀威胁冠军妈妈,两度情意离别火车站
- 杨馥宇对男友有多宠?为让对方变帅,不惜把自己的脸P变形
- 宇通客车连续16年服务全国两会
- 《楚乔传》:宇文玥爱得深沉,为何燕洵的爱更受欢迎
- 《终极斗罗》19册蓝轩宇7环完虐龙骑士,融合魂技:龙鲨合一
- 巴萨虽是宇宙队,但不是每个人都想去,他们拒绝了巴萨
- 原创 明星尴尬合影:李宇春和刘翔留同款发型,最后一张承包一年笑点!
