极速聊科技■阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!( 二 )


如果将上述的分类体系和原子概念层合起来 , 实际上可以看做一个相对完整的本体 , 它和Freebase、DBpedia等大家熟知的开放领域的知识图谱非常相似 , 唯一的区别是我们的实例不仅有实体 , 还包括了大量的概念 。 而相比Probase , ConceptNet等概念图谱 , 我们又定义了一套完整的类型系统 。
在商品层 , 阿里巴巴平台上数十亿的商品和内容 , 将会和电商概念、原子概念层进行关联 。 如和“户外烧烤”相关联的商品可能会包括烧烤架、炭火、食材等等 。 但这里要注意的一点是 , 有些商品可以关联到“户外烧烤”这个电商概念 , 但不一定可以和相应的原子概念“户外”直接关联 。 对于商品来说 , 电商概念像是这个商品会被用于的某个场景 , 而原子概念更像是细粒度的属性 , 用于刻画商品的特性 。
综上所述 , 在AliCoCo的体系中 , 用户需求被表达成短语级别的电商概念 。 在这之下 , 有一套定义完备的分类体系和原子概念实例去描述所有的电商概念 。 最后 , 电商平台上的所有商品都会和电商概念或是原子概念相关联 。 下面 , 我们详细介绍每一层的细节以及在构建过程中所遇到的算法问题 。
分类体系
AliCoCo的分类体系是一个巨大的树形结构 , 包含了百万级别的原子概念实例 。 由于分类体系的构建 , 对专家知识的要求非常高 , 并且这部分的设计对于整个知识体系都至关重要 , 因此我们人工定义了约20个一级分类 , 其中专为电商领域所设计的有:“品类”、“图案”、“功能”、“材质”、“花色”、“形状”、“气味”、“口味” 。 每个一级分类还会继续细分为二级、三级 , 直至叶子分类 , 其中对于电商领域最为重要的“品类”包含了约800个叶子分类 。 诸如“时间”、“地点”、“受众”、“IP”等分类和开放领域的知识图谱可以交融 , 如“IP”中包含了大量的明星、运动员、电影、音乐等 。
极速聊科技■阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!
文章图片
原子概念层
在原子概念层 , 我们希望这些细粒度的词能够去完整地描述所有的用户需求 , 这是用于组成电商概念的基础 , 在这一层 , 我们主要讨论两个问题:
原子概念词汇的挖掘
原子概念之间的上下位关系构建
【极速聊科技■阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!】词汇挖掘


推荐阅读