一味宠爱 知识图谱:一种从文本中挖掘信息的强大数据科学技术

概览知识图谱是数据科学中最有趣的概念之一了解如何使用Wikipedia页面上的文本构建知识图谱我们将动手使用Python流行的spaCy库构建我们的知识图谱介绍梅西(LionelMessi)无需介绍,甚至不喜欢足球的人都听说过 , 最伟大的球员之一为这项运动增光添彩 。 这是他的维基百科页面:
但是 , 有一个小问题 。 这不是要馈送到我们的计算机的理想数据源 。 无论如何都不是当前形式 。
我们能否找到一种方法使该文本数据对计算机可读?从本质上讲 , 我们可以将这些文本数据转换为机器可以使用的内容 , 也可以由我们轻松地解释吗?
我们可以!我们可以借助知识图谱(KG)来做到这一点 , KG是数据科学中最引人入胜的概念之一 。 知识图谱的巨大潜力和应用使我震惊 , 并且我相信你也会如此 。
在本文中 , 你将了解什么是知识图谱 , 它们为何有用 , 然后我们将基于从Wikipedia提取的数据构建自己的知识图谱 , 从而深入研究代码 。
什么是知识图谱?让我们先确定一件事情 , 在本文中 , 我们会经常看到图一词 。 当我说图时 , 我们并不是指条形图 , 饼图和折线图 。 在这里 , 我们谈论的是相互联系的实体 , 这些实体可以是人员 , 位置 , 组织 , 甚至是事件 。
如何在图中表示知识?在开始构建知识图谱之前 , 了解信息或知识如何嵌入这些图非常重要 。 让我用一个例子来解释一下 。 如果节点A=Putin , 节点B=Russia , 则边缘很可能是“presidentof”:
实际上非常简单 。 只需为新实体KGB添加一个节点即可:
识别实体及其之间的关系对我们来说不是一件困难的任务 。 但是 , 手动构建知识图谱是不可扩展的 。 没有人会浏览成千上万的文档并提取所有实体及其之间的关系!
这就是为什么机器更适合执行此任务的原因 , 因为浏览甚至成百上千的文档对于他们来说都是很简单的事 。 但是 , 还有另一个挑战就是机器不懂自然语言 。 这是自然语言处理(NLP)进入图的地方 。


推荐阅读