- 热门识别:时序分析,识别热门 query 。首先定义一个热门事件的趋势模板;然后对第一步预处理后的时序数据与热门模板进行相似度计算,如果相似度很高,说明趋势一致,则为热门事件,否则就是非热门 。相似度计算的方式最早用的距离是欧拉距离,但是由于欧拉距离需要严格的时序对齐,会造成一些 bad case,因此改用 DTW 算法 。
- 话题检测:同一个事件会有多种表述方法,对应多个 query,因此需要把相同事件的 query 聚类到一起,形成话题 。
- 事件识别&命名:热门的话题中往往会伴随一些非事件型的话题,如热门美剧更新时,会出现一个热度高潮,上述方法会混入一些非事件,因此我们需要对热门的话题做一个分类 。一个非常有效的特征是 url 中的一些单词,会很有区分性 。
文章插图
个性化推荐系统中除了要满足用户当前兴趣以外,还需要探索到用户未知的潜在兴趣点,扩展用户阅读视野 。因此需要对节点计算关联关系 。目前我们仅针对实体做了关联关系的计算 。
大家很容易想到,如果两个实体经常会在同一篇文档中出现,应该就是高关联的;或者用户经常连续搜索,即搜完 "刘德华",然后会马上搜索 "朱丽倩",应该也是高关联的 。确实这种直觉是正确的 。虽然这种方法准确率很高,但是会遇到一些问题:没有共现过的,会被认为没有任何的关系;对于共现少的 pair 对,关系的密切度计算误差也会比较大 。
因此,需要通过实体向量化的形式克服上述问题 。上述的共现数据可以作为正例,负样本采用同类实体随机负采样,正负样本比例1:3,通过 pair wise 的 loss 进行训练,得到每个实体的 embedding,然后计算任意两个实体的关联度 。
内容理解
1. 文本分类
文章插图
主题分类层是 PM 整理的,但是 PM 整理的过程中可能会存在一些认知偏差 。可以使用用户的点击行为对内容进行聚类,聚完类之后让 PM 去标注,从而总结出一些更适合的类别用于描述用户的兴趣 。
2. 关键词抽取
文章插图
我们使用了比较传统的关键词提取思路,利用传统特征工程 + GBRank 算法排序 。在实际中会遇到这样的问题,如示例,Twitter 出现在 title 中的实体,传统的方式会把 Twitter 分数计算的很高,但是这篇文章中却不是重点,重点是两支 LOL 战队的骂战 。于是我们在 BGRank 之后,加了 re-rank 层,为所有的候选词做一个重排序 。词之间边关系使用关联关系 embedding 计算相似度得到 。
3. 语义匹配
文章插图
对于概念和事件类型的标签,原文中可能并不会出现,用抽取的方式就没有办法解决 。我们采用召回+排序的方式解决 。召回的逻辑分为关系召回和语义召回,其中关系召回会用到兴趣点图谱中的关系数据,召回 1-hop 内的节点作为候选,语义召回通过语义向量召回与 title 近邻的节点作为候选,然后用交互匹配的方式进行排序 。如果 1-hop 内的节点数量太多,排序耗时会非常大,因此这里采用粗糙集的方式进行候选的粗排,缩小候选集合再进行排序 。
线上效果
文章插图
实验部分,baseline 是仅用传统的实体和分类标签,而实验组除了实体和分类以外,同时使用概念和事件类型的兴趣点,最后线上效果提升明显 。
今天的分享就到这里,谢谢大家 。
推荐阅读
- 各大信息流平台推广特性
- 新湖明珠城楼盘相关内容介绍
- 梦见亲人死了复活 梦见亲人死人复活什么预兆
- 梦见亲人复活什么预兆 梦见亲人复活是什么意思,好不好,代表什么
- 开网店的风险有哪些内容 在淘宝开网店有风险吗
- 做内容平台绕不开思考的6件事
- 新手买房教科书,二手房交易流程
- 梦见烧香磕头下跪 梦见烧香磕头下跪拜神
- 什么是内容分发网络?
- 如何判断你的百度账户开通的是原生信息流