|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020( 三 )


语言理解的一般目标 , 是对自然语言进行结构化 。 自然语言处理涉及一系列的任务 , 对象层面涉及句子、篇章和文本集 , 任务层面涉及分词任务、NER、摘要、信息挖掘、信息抽取等等 。
不管针对哪类对象和执行哪种任务 , 核心的计算过程都是将语言转换成单元和关系上的属性 , 属性有两类 , 一是无序标签;二是无序的关键值对 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

语言关系在数学上表现为序列关系、集合关系、树的形态和图的形态 , 复杂的问题是这些形态的组合 。 所以做语言理解实际上就是把自然语言结构化 , 这种结构化是计算机可操作的方案 , 很容易对接落地的需求 。
目前语言理解、语言信息处理主要依靠端到端模型 。 我们利用数据执行任务 , 从数据构建模型 , 并从输入直接得到输出 , 中间过程交给机器学习完成 。 此外还有组合模型 , 用到了机器学习和符号运算组合的策略 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

端对端的运算有四种模型 , 做自然语言处理都逃不过这四种模型:1、分类模型 。 给个对象 , 打标签;2、序列标注模型 。 对序列的对象 , 给予每一个对象安排一个标签 , 即序列标注;3、信道模型 。 即编码器解码器模型 , 把原信息做成某种编码表示 , 之后做解码和输出;4、相似度计算 。 这种计算可以是针对词的相似度 , 也可以是针对有上下文的词的相似度 , 可以针对短语、句子或篇章 。 针对端对端的运算 , 都涉及这四类模型 , 其他模型都是这四类模型的组合 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

组合类的模型解决的问题一定是端到端方案解决不了的 , 或者是端到端方案解决不好的问题 。 这类问题要么是复杂问题 , 要么是想要规避端对端不可解释、不可控缺陷的问题 。
组合类模型有两类 , 一类是以符号运算统领全局 , 可以把复杂的输入、复杂的问题做子问题分解 , 对每个子问题找到合适方案 , 再做输出 。 各个子问题输出之后 , 通过符号运算做推导 , 再得到问题的答案 。 一类以机器学习做统领 , 把复杂问题化为子问题 , 不同子问题找到合适方案 , 再做输出 , 把输出统一在机器学习网络架构下得到问题的答案 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

其中后者是学界正在探索的 , 就是把人类的结构化知识和可控的信息融入到机器学习的框架里 。 前者是工程化的解决方案 。
3 语义理解是语言理解的核心
语义理解是语言理解的核心 。 语言理解可以在多个层面进行 , 有语法层面、语义层面和语用层面(跨过语法和语义层面) 。
当然 , 随着大数据的红利褪去 , 我们越来越不能回避语义理解的问题 , 越往深走这个问题越发凸显 。 不管是语言问题还是其他问题 , 比如语音、图像等等 , 都面临语义理解的问题 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

以前行业里都认为 , 做自然语言处理的语义理解是个大坑 。 因为脱离了实际场景做语义是不切实际的 。
但现在有一种可能 , 就是在具体场景还不明确的时候做语义分析 。 一旦分析结果和跟场景需求相结合 , 就能快速地得到解决方案 , 这是我们的目标 。 我们在语义层面进行探索 , 需要得到一种表示 , 这种表示可以非常容易地转化成落地的应用 。
语义表示是自然语言学界一直在探讨的问题 。 通常我们用依存图来理解自然语言 , 但是在实际场景中远远不是这样 。 目前关于语义理解 , AMR比较受学者的追捧 。 有一些大厂开源了语义分析的引擎 , 是为了提供得到中间表示的工具 , 而不是终端解决方案 。


推荐阅读