极速聊科技■阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!


极速聊科技■阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!
文章图片
小叽导读:电商技术进入认知智能时代 , 将给亿万用户带来更加智能的购物体验 。 经过两年的探索与实践 , 阿里巴巴的电商认知图谱AliCoCo已成体系规模 , 并在搜索推荐等电商核心业务场景上取得佳绩 , 关于AliCoCo的文章《AliCoCo:AlibabaE-commerceCognitiveConceptNet》也已被国际顶会SIGMOD接收 , 这是阿里巴巴首次正式揭秘领域知识图谱 。
本文将通过介绍AliCoCo的背景、定义、底层设计、构建过程中的一些算法问题 , 以及在电商搜索和推荐上的广泛应用 , 分享AliCoCo从诞生到成为阿里巴巴核心电商引擎的基石这一路走来的思考 。
背景
近年来电商搜索、推荐算法已经取得了长足的进步 , 但面对用户多样化的需求 , 目前的电商体验依然还称不上“智能” 。 多年来 , 我们的搜索引擎在引导用户如何输入关键字才能更快地找到需要的商品 , 而这种基于关键字的搜索 , 适用于对明确清楚具体商品的用户 。 但很多时候 , 用户面临的往往是一些问题或场景 , 如“举办一场户外烧烤”需要哪些工具?在淘宝上购买什么商品能有效“预防家里的老人走失”?他们需要更多的“知识”来帮助他们决策 。 而在商品推荐中 , 重复推荐、买过了又推荐、推荐缺少新意等问题也是经常为人诟病 。 当前的推荐系统更多的是从用户历史行为出发 , 通过i2i等手段来召回商品 , 而不是真正从建模用户需求出发 。
深究这些问题背后的原因 , 其根源在于电商技术所依赖的底层数据 , 缺少对于用户需求的刻画 。 具体来讲 , 目前淘宝用于管理商品的体系 , 是一套基于类目-属性-属性值的体系 , 它缺乏必要的知识广度和深度 , 去描述和理解各类用户需求 , 从而导致基于此的搜索、推荐算法在认知真实的用户需求时产生了语义的隔阂 , 从而限制了用户体验的进一步提升 。
为了打破这个隔阂 , 让电商搜索、推荐算法更好地认知用户需求 , 我们提出建设一种新的电商知识图谱 , 将用户需求显式地表达成图中的节点 , 构建一个以用户需求节点为中心的概念图谱 , 链接用户需求、知识、常识、商品和内容的大规模语义网络:阿里巴巴电商认知图谱 , 简称AliCoCo 。 我们希望AliCoCo能为电商领域的用户理解、知识理解、商品和内容理解提供统一的数据基础 。 经过两年的努力 , 我们已经完成了整体的结构设计和核心数据的建设 , 并在电商搜索、推荐等多个具体的业务场景落地 , 取得了不错的效果 , 提升了用户体验 。
AliCoCo
如下图所示 , AliCoCo是一个概念图谱 , 主要由四部分构成:
电商概念层
原子概念层
分类体系
商品层
在电商概念层 , 作为AliCoCo最大的创新点 , 我们将用户需求显式地用一个符合人话的短语表示为图中的节点 , 如“户外烧烤”、“儿童保暖”等 , 并称之为“电商概念” 。 用户需求虽然一直被提及 , 但在电商领域 , 还未被正式地定义过 。 在很多下游应用的工作中 , 常常用类目或品类节点作为用户需求的表达 。 但用户需求是远不止于这些的 , 很多场合下 , 用户面临的是一个“场景”或者“问题” , 他们并不知道具体什么商品可以帮助解决 , 因此我们将用户需求的定义进一步泛化为电商概念 , 具体详见下文章节 。 所有用于表示用户需求的电商概念组成了这一层 。
在原子概念层 , 我们为了更好地理解上面讲到的电商概念 , 我们将这些短语进行拆解细化到词粒度 , 用这些细粒度的词来更系统地描述用户需求 , 这些细粒度的词称为“原子概念” 。 如对于电商概念“户外烧烤”而言 , 它可以被表示成“动作:烧烤&地点:户外&天气:晴” , 这里的“烧烤”、“户外”和“晴”都是原子概念 。 所有原子概念组成了这一层 。
在分类体系中 , 为了更好地管理上述的原子概念 , 我们构建了一个描述大千世界基本概念的分类体系 , 它不局限于电商领域 , 但目前是为电商领域的概念理解所服务 。 在这一层中 , 我们定义了诸如“时间”、“地点”、“动作”、“功能”、“品类”、“IP”等一级分类 , 并在每个分类下继续细分出子分类 , 形成一颗树形结构 。 在每个分类中 , 包含了分类的实例 , 即原子概念 , 如上述的“烧烤”、“户外”和“晴”就分属于“动作-消耗性动作”、“地点-公共空间”和“时间-天气” 。 同时 , 不同分类之间有不同的关系 , 如“品类-服饰-服装-裤子”和“时间-季节”之间定义了一个“适用于”的关系 。 因此 , 相应的会有一条三元组实例: 。


推荐阅读