|观潮百度NLP十年:语言知识全布局,5款产品新发布、2大计划( 二 )


|观潮百度NLP十年:语言知识全布局,5款产品新发布、2大计划
本文插图

除了文本阅读理解之外 , 对话可能是更为常见的一种自然语言理解任务 。 如何做好对话理解呢?百度 NLP 提出的方法是:先从大规模跨任务对话知识中学习通用的语义表示 , 再利用小样本学习快速提高新任务的对话理解能力 。 小样本学习可以解决新领域语料数据不足的难题 。
|观潮百度NLP十年:语言知识全布局,5款产品新发布、2大计划
本文插图

人认知世界的时候不仅仅是用自然语言 , 往往是多模态的语音、视觉、语言 , 各种信号都会有输入 。 因此 , 百度 NLP 的研究也从自然语言扩展到跨模态的语义理解 。 突破跨模态语义理解技术面临两大难题:一是不同模态的信息相互独立 , 彼此缺乏关联;二是不同模态的信息异构 , 语义空间难以融合 。
针对这些难题 , 百度 NLP 提出了知识增强的跨模态深度语义理解方法 , 一是从多源异构大数据中构建大规模知识图谱 , 作为关联跨模态信息的桥梁;二是语言可以描述不同模态信息的语义 , 通过知识增强的自然语言语义表示方法 , 解决不同模态语义空间的融合表示难题 , 从而突破跨模态语义理解的技术瓶颈 。
这些技术突破为人们接触最多的百度搜索引擎带来了很多变化 。 「传统的搜索引擎通过关键词进行简单的需求理解 , 其核心是排序 。 而近年来 , 百度搜索已经完全进化成了智能搜索引擎 。 」王海峰说道 。
现在 , 你的输入不仅可以是一个词、一句话 , 也可以是语音、图片 。 这涉及到语言理解和跨模态理解 , 还需要将互联网上大量的内容与其连接起来 , 而搜索结果的排序现在也是基于深度学习和语义表示融合的方法 。
在结果的呈现上 , 很多时候搜索引擎给出的答案图文并茂 , 这背后则是知识图谱技术的支撑 。
语义理解之外 , 最近 NLP 领域发展较快的方向是语言生成 。 基于预训练模型等技术 , 百度提出了基于多流机制的语言生成预训练方法 , 兼顾词、短语等不同粒度的语义信息 , 显著提升了生成效果 。 百度也探索了多文档摘要生成 , 通过图结构语义表示 , 引入篇章知识 , 新的模型解决了跨文档领域关系建模难题 。 在单文档和多文档摘要上 , 都取得了很大的效果提升 。
|观潮百度NLP十年:语言知识全布局,5款产品新发布、2大计划
本文插图

从内到外的 AI 技术渗透
有了知识、语言理解和生成 , 我们就可以实现自然的人机对话 。 在基于知识的对话框架下 , 基于知识 , 理解对话意图 , 规划对话路径 。 同时 , 基于用户的反馈 , 机器可以学习和积累知识 , 不断提高对话的体验和效率;百度提出了知识图谱驱动的对话控制技术 , 利用知识图谱提供的语义内容和关联信息 , 帮助对话系统自动规划话题路径 , 知识之间的关联使得话题可以自然切换 , 显著提高对话流畅度和逻辑性 。
在对话生成方面 , 百度研发了首个基于隐空间的大规模开放域对话模型 , 借助隐空间建模不同的对话回复方式 , 在对话合理性、内容丰富度、吸引力等方面效果突出 , 中英文效果上都超越了业内最佳的模型和系统 。
「在基于知识的对话框架里 , 我们实现了在线交互学习 , 通过主动向用户发起交互 , 机器可以利用用户的反馈学习新知识 , 持续优化对话效果 , 」王海峰说 , 「整合上述技术 , 我们研制了智能对话定制与服务平台 , 可以帮助开发者高效构建智能对话系统 , 实现规模化应用 。 」
人工智能和 NLP 的经典难题——翻译问题 , 百度也在不断打磨 。
百度自 2010 年开始研发大规模互联网机器翻译 , 在大规模翻译知识获取、翻译模型、多语言翻译、同声传译等方面创新突破 , 研发了领先的互联网翻译系统 , 率先上线互联网神经网络机器翻译 , 实现了机器翻译的大规模产业化应用 。 在机器翻译技术方面 , 百度提出了多智能体联合学习等多项创新技术 , 效果领先 , 并在国际评测中获得第一 。


推荐阅读