|北语信息院院长荀恩东：语言智能的核心是语义理解丨CCF-GAIR 2020( 四 )

本文插图

不管哪种表示形态，一般的套路就是确定一个概念体系，然后开始标注，之后学模型。但是在实际场景解决问题的时候会面临很大的问题，就是确定的概念体系和标记语料，跟实际场景相差很远，应用成本高。
为了得到更贴近应用的语义表示方案，我们提出了意合图。意合图是什么呢？举个例子， “它圆圆地画了一个圈” ，我们怎么理解这句话？
我们从一般语言的角度来提取这句话里最根本的东西，即事件和实体。意合图是针对汉语意合语言的特点来做的。意合图包括事件复合体和实体复合体，如下图所示，圆角矩形是事件复合体，直角矩形是实体复合体。
我们把事件主体找出来，就是“画”这个动词。谁画了什么？然后我们需要找到主体和客体两个实体复合体，找到了“他”和“圈” ，这样就把实体和事件之间进行了关联。

本文插图

如果对所有自然语言做出这样的表达，对于理解语言是有帮助的。但问题是，这种表示的完备性和泛化性如何？另外，这种表示是不是可计算的。
再举几个例子。 “虽然你不出门，却知天下事。 ”事件类有“出门”和“知” ，这两个事件具有转折关系。与“出门”和“知”相关的实体是“你”和“天下事” 。
“出门”和“知”在词条级做加工和处理，因为这种词条是稳定的。我们可以在大数据将经常搭配的词条和类型找出来，进行匹配。

本文插图

还有一种意合图是，句子中没有完备的事件实体结构，但是存在自定义的或者是隐性的关系。比如说眼睛，一说到眼睛，我们就知道这是指某个生物的眼睛。眼睛一定有一个主人，从“他哭肿了眼睛” ，我们知道眼睛是“他”的。

本文插图

这个例子也一样， “我吃饭比他快” ， “快”是比较的词语，是比较两个吃的动作，不能说“我吃饭”跟“他”比。这里面的“他”和“我”产生了共享，共享就是指“吃饭”和“他”进行了组合。
那么，怎么构建意合图？下图展示了我们的技术路线。给一个句子，不采用端到端的解决方案做意合图，否则需要标记很多数据。我们的理念是，意合图是不可标的，因为数量太庞大。我们借助块依存结构来做意合图，先做结构，再从结构做语义。
在结构阶段，我们采用了语块依存的做法，针对汉语的特点和实际应用的要求，，构造了超大规模的北语树库。
在语块依存的结构分析基础上，我们利用各类的搭配，比如命题搭配、情态搭配和事理搭配数据，通过符号运算，生成意合图。
在这里，各类搭配数据，是在大数据自动学习得到的，经过前期或后期的人工校对，保证搭配数据的质量。

本文插图

做结构的时候依靠树库标注，北语这几年发布了几个千万量级的树库，基于分层分阶段建设规划，包括树库1.0（组块语结构），树库2.0（缺省结构还原），树库3.0（句间关系），等等。我们的标注数据基于篇章，规模很大，涉及很多领域。

本文插图

下图展示了块依存树1.0中组块语结构的例子。我们通过简单的标注操作，得到快依存结构。

|北语信息院院长荀恩东：语言智能的核心是语义理解丨CCF-GAIR 2020( 四 )

推荐阅读

新华社|国际观察｜只剩100天，特朗普和拜登准备得咋样了？

#当天#?北京下调防疫等级后五一当天部分出京火车票已售罄

cnBetaTBChrome OS推进Steam新线索：虚拟机系统要从Debian换成Ubuntu?

直播|女子看怀孕母猪直播时发现猪圈着火，报警救其性命

纪念碑谷|纪念碑谷烧脑解谜，最强蜗牛称霸世界，艾兰岛超多游戏任你玩！

拼多多“12.12超拼夜”上演南北农货大比拼，南方椰子米粉险胜北方草莓水饺

穿搭|一双红色的鞋子，整个造型更富有优雅女人味

春分后各茶品将陆续生产不同的你喝不同的茶

虾玩科技颈挂式蓝牙耳，身临其境的游戏体验，舒适不掉的运动爽快，南卡S2

金庸|小龙女到底姓啥名啥？金庸：真名太土了，被读者嫌弃俗气

hm是什么单位？

富弼|历史，大多由奸臣“谱写”（完结）

冬至之后越来越暖和吗冬至以后越来越暖和吗

营养师雪姐姐|突发心梗，深夜离世，睡前最忌1件事，劝你尽量少做，35岁男子

细挑汽青车|入门SUV起亚奕跑和长安CS15选谁好？，预算只有8万

民国风格美女,民国时期女学生气质-

上观新闻|是国内最小年纪恐龙发现者，四川5岁男童发现恐龙足迹

军事说不停|一大国突然出手支援希腊，土军这下麻烦了，土耳其大军云集之际

用车社气场媲美奥迪A6，一箱油跑一个月，价格是重点，丰田又亮出王牌

我们是因为什么而要结婚呀?结婚是为了啥