陈丹琦新作:关系抽取新SOTApipeline挫败joint( 二 )
为了加快模型推断速度 , 该研究提出了一种新颖而有效的近似方法 , 该方法可实现 8-16 倍的推断加速 , 而准确率只有很小的降低 。
方法
该研究提出的模型包括一个实体模型和一个关系模型 。 如下图所示 , 首先将输入句子馈入实体模型 , 该模型为每一个 span 预测实体类型;然后通过嵌入额外的 marker token 在关系模型中独立处理每对候选实体 , 以突出显示主语、宾语及其类型 。
本文插图
此外 , 研究者还介绍了该方法与 DYGIE++ 的区别(DYGIE++ 与该方法很接近 , 并且是最强的基线方法) 。
1. 该研究提出的方法对实体模型和关系模型使用不同的编码器 , 未使用多任务学习;预测得到的实体标签直接作为关系模型的输入特征 。
2. 关系模型中的语境表示特定于每个 span 对 。
3. 该方法用额外的语境扩展输入 , 从而纳入跨句信息 。
4. 该方法未使用束搜索或图传播层 , 因此 , 该模型要简单得多 。
有效的近似方法
该研究提出的方法较为简洁有效 , 但是它的缺点是需要对每一个实体对运行一次关系模型 。 为此 , 研究者提出一种新型高效的替代性关系模型 。 核心问题在于 , 如何对同一个句子中的不同 span 对重用计算 , 在该研究提出的原始模型中这是不可能实现的 , 因为必须为每个 span 对分别嵌入特定的实体标记 。 因此 , 研究者提出了一种近似模型 , 该模型对原始模型做了两个重要更改 。
首先 , 该近似方法没有选择直接将实体标记嵌入原始句子 , 而是将标记的位置嵌入与对应 span 的开始和结束 token 联系起来:
本文插图
其次 , 近似方法为注意力层添加了约束:使文本 token 只注意文本 token 不注意标记 token , 实体标记 token 则可以注意所有文本 token , 4 个标记 token 全部与同一个 span 对关联 。
这两项更改允许模型对所有文本 token 重用计算 , 因为文本 token 独立于实体标记 token 。 因而 , 该方法可以在运行一次关系模型时批量处理来自同一个句子的多个 span 对 。
实验
研究人员在三个端到端关系抽取数据集 ACE04、ACE054 和 SciERC 上进行方法评估 , 使用 F1 分数作为评估度量指标 。
下表 2 展示了不同方法的对比结果:
本文插图
从图中可以看出 , 该研究提出的 single-sentence 模型实现了强大的性能 , 而纳入跨句语境后 , 性能结果得到了一致提升 。 该研究使用的 BERT-base(或 SciBERT)模型获得了与之前工作类似或更好的结果 , 包括那些基于更大型预训练语言模型构建的模型 , 使用较大编码器 ALBERT 后性能得到进一步提升 。
近似方法的性能
下表展示了完全关系模型和近似模型的 F1 分数与推断速度 。 在两个数据集上 , 近似模型的推断速度显著提升 。
本文插图
这个 pipeline 模型为什么超过了 joint 模型?
除了展示方法和性能以外 , 该研究还深入分析了这一 pipeline 模型取得如此优秀性能的原因 。
键入文本标记(typed text marker)的重要性
该研究认为 , 为不同 span 对构建不同语境表示非常重要 , 早期融合实体类型信息可以进一步提升性能 。
为了验证键入文本标记的作用 , 研究者使用其不同变体在 ACE05 和 SciERC 数据集上进行实验 , 包括 TEXT、TEXTETYPE、MARKERS、MARKERSETYPE、MARKERSELOSS、TYPEDMARKERS 六种 。
推荐阅读
- LOGO|卡普空新作《街头霸王6》Logo被扒来自素材网站:80美元即可拥有
- 游戏|系列35周年纪念新作正式公布!《街头霸王6》宣传PV官方首曝
- 天才|冬奥收获2金1银 谷爱凌谈天才与努力关系:99%以上都是努力
- 免疫力|科学家发现免疫系统与长相之间的关系:越健康的人越有吸引力
- 游戏|《仙剑》厂商恐怖新作《女鬼桥:开魂路》预告:学校遇鬼
- 游戏|《逃生》新作全新截图公布 场景氛围更加阴森诡异
- 比尔盖茨|被指22年前与员工有不正当关系 微软将公布比尔·盖茨性骚扰调查结果
- 科普|为什么吃完火锅总有一身味儿?原来跟它没关系
- 特斯拉|比亚迪4S店门前Model Y起火!特斯拉回应:与我们毫无关系
- 电池|碳酸锂缺货涨到天价!电池厂商托关系也拿不到货
