|北语信息院院长荀恩东：语言智能的核心是语义理解丨CCF-GAIR 2020( 三 )

语言理解的一般目标，是对自然语言进行结构化。自然语言处理涉及一系列的任务，对象层面涉及句子、篇章和文本集，任务层面涉及分词任务、NER、摘要、信息挖掘、信息抽取等等。
不管针对哪类对象和执行哪种任务，核心的计算过程都是将语言转换成单元和关系上的属性，属性有两类，一是无序标签；二是无序的关键值对。

本文插图

语言关系在数学上表现为序列关系、集合关系、树的形态和图的形态，复杂的问题是这些形态的组合。所以做语言理解实际上就是把自然语言结构化，这种结构化是计算机可操作的方案，很容易对接落地的需求。
目前语言理解、语言信息处理主要依靠端到端模型。我们利用数据执行任务，从数据构建模型，并从输入直接得到输出，中间过程交给机器学习完成。此外还有组合模型，用到了机器学习和符号运算组合的策略。

本文插图

端对端的运算有四种模型，做自然语言处理都逃不过这四种模型：1、分类模型。给个对象，打标签；2、序列标注模型。对序列的对象，给予每一个对象安排一个标签，即序列标注；3、信道模型。即编码器解码器模型，把原信息做成某种编码表示，之后做解码和输出；4、相似度计算。这种计算可以是针对词的相似度，也可以是针对有上下文的词的相似度，可以针对短语、句子或篇章。针对端对端的运算，都涉及这四类模型，其他模型都是这四类模型的组合。

本文插图

组合类的模型解决的问题一定是端到端方案解决不了的，或者是端到端方案解决不好的问题。这类问题要么是复杂问题，要么是想要规避端对端不可解释、不可控缺陷的问题。
组合类模型有两类，一类是以符号运算统领全局，可以把复杂的输入、复杂的问题做子问题分解，对每个子问题找到合适方案，再做输出。各个子问题输出之后，通过符号运算做推导，再得到问题的答案。一类以机器学习做统领，把复杂问题化为子问题，不同子问题找到合适方案，再做输出，把输出统一在机器学习网络架构下得到问题的答案。

本文插图

其中后者是学界正在探索的，就是把人类的结构化知识和可控的信息融入到机器学习的框架里。前者是工程化的解决方案。
3 语义理解是语言理解的核心
语义理解是语言理解的核心。语言理解可以在多个层面进行，有语法层面、语义层面和语用层面（跨过语法和语义层面）。
当然，随着大数据的红利褪去，我们越来越不能回避语义理解的问题，越往深走这个问题越发凸显。不管是语言问题还是其他问题，比如语音、图像等等，都面临语义理解的问题。

本文插图

以前行业里都认为，做自然语言处理的语义理解是个大坑。因为脱离了实际场景做语义是不切实际的。
但现在有一种可能，就是在具体场景还不明确的时候做语义分析。一旦分析结果和跟场景需求相结合，就能快速地得到解决方案，这是我们的目标。我们在语义层面进行探索，需要得到一种表示，这种表示可以非常容易地转化成落地的应用。
语义表示是自然语言学界一直在探讨的问题。通常我们用依存图来理解自然语言，但是在实际场景中远远不是这样。目前关于语义理解， AMR比较受学者的追捧。有一些大厂开源了语义分析的引擎，是为了提供得到中间表示的工具，而不是终端解决方案。

|北语信息院院长荀恩东：语言智能的核心是语义理解丨CCF-GAIR 2020( 三 )

推荐阅读

新华社|国际观察｜只剩100天，特朗普和拜登准备得咋样了？

#当天#?北京下调防疫等级后五一当天部分出京火车票已售罄

cnBetaTBChrome OS推进Steam新线索：虚拟机系统要从Debian换成Ubuntu?

直播|女子看怀孕母猪直播时发现猪圈着火，报警救其性命

纪念碑谷|纪念碑谷烧脑解谜，最强蜗牛称霸世界，艾兰岛超多游戏任你玩！

拼多多“12.12超拼夜”上演南北农货大比拼，南方椰子米粉险胜北方草莓水饺

穿搭|一双红色的鞋子，整个造型更富有优雅女人味

春分后各茶品将陆续生产不同的你喝不同的茶

虾玩科技颈挂式蓝牙耳，身临其境的游戏体验，舒适不掉的运动爽快，南卡S2

金庸|小龙女到底姓啥名啥？金庸：真名太土了，被读者嫌弃俗气

hm是什么单位？

富弼|历史，大多由奸臣“谱写”（完结）

冬至之后越来越暖和吗冬至以后越来越暖和吗

营养师雪姐姐|突发心梗，深夜离世，睡前最忌1件事，劝你尽量少做，35岁男子

细挑汽青车|入门SUV起亚奕跑和长安CS15选谁好？，预算只有8万

民国风格美女,民国时期女学生气质-

上观新闻|是国内最小年纪恐龙发现者，四川5岁男童发现恐龙足迹

军事说不停|一大国突然出手支援希腊，土军这下麻烦了，土耳其大军云集之际

用车社气场媲美奥迪A6，一箱油跑一个月，价格是重点，丰田又亮出王牌

我们是因为什么而要结婚呀?结婚是为了啥