阿里巴巴B2B电商算法首次对外公开( 二 )

  • 榜单3:长袖T恤榜、长袖T恤衫榜 。
  • 仅仅从名称入手 , 榜单3是比较好合并的 , 而榜单1和榜单2就不太好合并了 。 榜单的合并必须从榜单中的商品集合入手 。 这里我们用了jaccard相似度计算的方式解决这个榜单合并的问题 。
    假设A榜单的商品集合为A , B榜单的商品集合为B , 那么通过jaccard相似度计算的公式 , A与B的交集除以A与B的并集 , 就得到榜单A和榜单B的相关度了 。 相关度越高 , 两个榜单就越好合并 。
    利用这个方法 , 可以非常快速地找到两个相似的榜单 , 但是如果直接拿jaccard相似度来计算会有一些极端情况 。 比如要计算A和B两个榜单的相关度 , 假设A榜单中所有的商品几乎都出现在了B榜单中 , 但是A榜单的商品集合相对较小 , B榜单的商品集合很大 , 那么根据jaccard相关度计算公式 , 两个榜单的相关度会非常小 , 从而使两个榜单无法合并 。 这个时候我们需要把jaccard的相关度算法做个小改进:
    阿里巴巴B2B电商算法首次对外公开
    本文插图
    其中A为A和B中元素较少的榜单集合 。 如果发现A榜单和B榜单内的商品集合相关度高 , 那么就把A榜单合并到B榜单中 , 这样就可以比较好地规避上面提到的问题 。
    02 榜单召回推荐
    榜单召回主要考虑用户的实时足迹偏好和类目偏好两个维度 , 如图6-17所示 。
    阿里巴巴B2B电商算法首次对外公开
    本文插图
    ▲图6-17 榜单召回策略示意图
    主要的召回策略如下所示 。
    • I in B:如果用户的足迹在某个榜单的商品中 , 那么召回对应的榜单
    • I2I in B:如果用户的足迹不在榜单商品中 , 那么将用户浏览过的商品扩展到更大的商品集合 , 再匹配到榜单内的商品 , 然后把对应的榜单召回
    • C2B:根据偏好类目召回榜单
    03 榜单内商品排序
    为了保证榜单的权威性 , 并不会对榜单内部商品进行个性化排序 。 对榜单内部的商品 , 按照大促所属的不同周期选择不同的排序方案 。 预热期按照买家的访问和下单的情况进行排序 , 大促爆发期则按照商品的实时GMV进行排序 。
    当然 , 也可以引入机器学习和深度学习构建排序模型 , 这部分内容和搜索、推荐比较类似 , 就不展开陈述了 。
    04 榜单个性化文案
    1. 背景
    榜单作为商品内容化的重要载体 , 如何展示更丰富的信息 , 起到“种草”、辅助成交转化的作用 , 一直是这一产品优化的方向 。
    我们通过智能文案技术 , 为榜单生成定制化的描述文案 , 通过一句话概括榜单内商品的功能功效和设计亮点 , 使其不只是商品的简单聚合 , 还能打出特有的内容心智 。 整体技术方案如图6-18所示 , 我们尝试加入风格控制 , 目的是在智能文案生成的过程中控制文案的风格 。
    阿里巴巴B2B电商算法首次对外公开
    本文插图
    ▲图6-18 榜单文案算法模型
    2. 数据预处理
    我们采用基于单品的短亮点文案数据进行模型训练 。 榜单作为相同细分品类商品的聚合 , 包含的商品属于相同的品类并具有相似的属性 , 因此可以采用单品文案模型进行生成 。
    在测试数据上 , 我们首先选取了各榜单头部N个商品的标题 , 进行分词后 , 以TF-IDF算法计算词权重 。 以当前榜单中的词 , 在相同叶子类目的所有榜单中出现的频率作为其逆文档频率(IDF) , 与其在当前榜单中出现的频率(TF)相乘后进行排序 , 旨在选出当前榜单中最具有代表性的K个关键词 , 作为模型的输入 。
    3. 风格控制
    榜单作为产品化组件 , 往往会在不同主题的日常与大促会场进行插入 。 因此 , 需要配合不同的使用场景 , 生成不同风格的榜单文案 。


    推荐阅读