|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020( 四 )


|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

不管哪种表示形态 , 一般的套路就是确定一个概念体系 , 然后开始标注 , 之后学模型 。 但是在实际场景解决问题的时候会面临很大的问题 , 就是确定的概念体系和标记语料 , 跟实际场景相差很远 , 应用成本高 。
为了得到更贴近应用的语义表示方案 , 我们提出了意合图 。 意合图是什么呢?举个例子 , “它圆圆地画了一个圈” , 我们怎么理解这句话?
我们从一般语言的角度来提取这句话里最根本的东西 , 即事件和实体 。 意合图是针对汉语意合语言的特点来做的 。 意合图包括事件复合体和实体复合体 , 如下图所示 , 圆角矩形是事件复合体 , 直角矩形是实体复合体 。
我们把事件主体找出来 , 就是“画”这个动词 。 谁画了什么?然后我们需要找到主体和客体两个实体复合体 , 找到了“他”和“圈” , 这样就把实体和事件之间进行了关联 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

如果对所有自然语言做出这样的表达 , 对于理解语言是有帮助的 。 但问题是 , 这种表示的完备性和泛化性如何?另外 , 这种表示是不是可计算的 。
再举几个例子 。 “虽然你不出门 , 却知天下事 。 ”事件类有“出门”和“知” , 这两个事件具有转折关系 。 与“出门”和“知”相关的实体是“你”和“天下事” 。
“出门”和“知”在词条级做加工和处理 , 因为这种词条是稳定的 。 我们可以在大数据将经常搭配的词条和类型找出来 , 进行匹配 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

还有一种意合图是 , 句子中没有完备的事件实体结构 , 但是存在自定义的或者是隐性的关系 。 比如说眼睛 , 一说到眼睛 , 我们就知道这是指某个生物的眼睛 。 眼睛一定有一个主人 , 从“他哭肿了眼睛” , 我们知道眼睛是“他”的 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

这个例子也一样 , “我吃饭比他快” , “快”是比较的词语 , 是比较两个吃的动作 , 不能说“我吃饭”跟“他”比 。 这里面的“他”和“我”产生了共享 , 共享就是指“吃饭”和“他”进行了组合 。
那么 , 怎么构建意合图?下图展示了我们的技术路线 。 给一个句子 , 不采用端到端的解决方案做意合图 , 否则需要标记很多数据 。 我们的理念是 , 意合图是不可标的 , 因为数量太庞大 。 我们借助块依存结构来做意合图 , 先做结构 , 再从结构做语义 。
在结构阶段 , 我们采用了语块依存的做法 , 针对汉语的特点和实际应用的要求 ,, 构造了超大规模的北语树库 。
在语块依存的结构分析基础上 , 我们利用各类的搭配 , 比如命题搭配、情态搭配和事理搭配数据 , 通过符号运算 , 生成意合图 。
在这里 , 各类搭配数据 , 是在大数据自动学习得到的 , 经过前期或后期的人工校对 , 保证搭配数据的质量 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

做结构的时候依靠树库标注 , 北语这几年发布了几个千万量级的树库 , 基于分层分阶段建设规划 , 包括树库1.0(组块语结构) , 树库2.0(缺省结构还原) , 树库3.0(句间关系) , 等等 。 我们的标注数据基于篇章 , 规模很大 , 涉及很多领域 。
|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020
本文插图

下图展示了块依存树1.0中组块语结构的例子 。 我们通过简单的标注操作 , 得到快依存结构 。


推荐阅读