|观潮百度NLP十年:语言知识全布局,5款产品新发布、2大计划
机器之心原创
编辑:泽南、张倩
深度学习潮起仿佛还在昨天 , 百度 NLP 已走过了十年 。
人工智能是一门新兴学科吗?当然不是 。 但能让 AI 技术被上亿人每天使用到的 , 一定是走在最前端的公司 。
在国内 , 百度就是这样一家公司 。 在人工智能最具挑战性的方向——自然语言处理(NLP)上 , 百度一直拥有着技术优势 。 8 月 25 日 , 在百度语言与知识技术峰会上 , 百度 CTO 王海峰向我们分享了这家公司在 NLP 领域的技术创新和产业实践 , 同时也展望了未来的发展趋势 。
在这个七夕 , 百度还向我们发布了不少 NLP「爆款」 。
「语言与知识技术是人工智能认知能力的核心 。 2010 年 , 百度成立自然语言处理部 , 十年间不断发展壮大 , 」王海峰表示 , 「在百度语言与知识技术的布局和发展中 , 我们始终注意把握两个趋势 , 即技术发展趋势和产业发展的趋势 , 并力争引领趋势 。 」
本文插图
随后 , 王海峰全面分享了百度语言与知识技术的完整布局和最新成果 。
十年坚守 , 一路领先
经过了十余年的发展 , 百度已形成了完整的 NLP 技术布局 , 包括知识图谱、语言理解与生成技术 , 以及应用系统等 。 知识图谱包含概念图谱、实体图谱等不同类型的图谱 , 以及知识挖掘、索引、存储到知识推理计算的一整套知识相关的技术和平台 。 语言理解包括基础的词法分析和句法分析技术 , 也包括篇章理解、对话理解、情感分析和语义理解等技术 。 而语言生成则覆盖了从句子、摘要到篇章各种类型的生成技术 , 以及语言风格转换技术 。
全球最大知识图谱
首先是知识图谱 。 知识图谱是以结构化的形式描述真实世界中的实体、属性、关系等 , 是机器认知世界的重要基础 。 百度很早看到了知识图谱蕴含的潜力 , 王海峰等人也在自然语言处理部成立之后不久就敲定了在知识图谱技术上的研发投入 。 2013 年 , 百度 NLP 就已经开发出了垂类知识图谱 。
知识图谱的搭建依赖大量数据 , 而百度搜索引擎所蕴含的多源异构大规模数据为知识图谱的发展提供了天然土壤 。 此外 , 百度还创建了一整套构建知识图谱的方法 , 包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术以及融合多源异构数据的知识补全和知识挖掘技术 。
基于这些技术 , 百度创建了世界上最大规模的知识图谱 。 这个知识图谱拥有超过 50 亿实体和 5500 亿个事实 。
本文插图
除了在百度搜索等各类产品中的使用之外 , 百度的知识图谱还开放给金融、能源、媒体、政务、教育、司法等各行各业使用 , 每天的调用量已超过 400 亿次 。
语言理解领跑全球 NLP 领域
有了知识之后 , 下一个问题就是如何基于知识实现语言理解的增强 。
首先是基础的语义表示 。 百度提出的知识增强语义理解框架 ERNIE 以知识增强和持续学习为核心创新点 , 在深度学习的基础上融入了知识 , 通过持续学习技术不断吸收海量数据中的词汇、结构、语义等方面的知识 。 在最具影响力的 NLP 评测基准 GLUE 上 , ERNIE 在 10 个任务中的平均得分首次突破 90 , 刷新了榜单最高分 , 超越了人类水平 。
再来看持续学习的效果 。 在基线系统的基础上 , 百度通过持续学习机制为 ERNIE 系统增加了百科知识、对话知识、篇章结构知识等 , 使得模型性能得以持续提升 。
本文插图
有了知识图谱和语义表示之后 , 下一步就可以做语言理解 。 以下图红框中一句话为例 , 如何利用这段话推断出「但使龙城飞将在 , 不教胡马度阴山」这首诗的作者?这段话包含两个名字(「李广」和「王昌龄」) , 如果随机选择一个作为答案 , 正确率只有 50% 。 为了找到正确答案 , 百度 NLP 将知识作为背景信息融入文本语义表示 , 增强了模型的语义推理能力 。 这项阅读理解技术在 EMNLP-MRQA 2019 评测中获得冠军 , 取得了 10 项任务的第一名 。
推荐阅读
- 中年|谈一谈我的十年机械工作经历
- 海外情报社|明明是国产,偏要取个英文名,被误认为是洋货,却领先全球十年
- 猎豹|猎豹移动蒙眼狂奔十年,终究逃不过时代魔掌?
- 网盘|百度网盘:布局个人“云时代”
- 环保|百度等玩家涌入“智能环保”
- 互联网|百度360等最强大脑签约落户黄埔
- 百度|老域名对网站优化有哪些影响?
- |BATJ罕见联手!一公司被百度京东腾讯阿里联合申诉,怎么了?
- |AI 驱动下的地图变革大潮,百度地图定义下一代地图的模样
- |手机的下一个十年会有什么进步?