腾讯信息流内容理解技术实践( 三 ) _信息流

热门识别：时序分析，识别热门 query 。首先定义一个热门事件的趋势模板；然后对第一步预处理后的时序数据与热门模板进行相似度计算，如果相似度很高，说明趋势一致，则为热门事件，否则就是非热门。相似度计算的方式最早用的距离是欧拉距离，但是由于欧拉距离需要严格的时序对齐，会造成一些 bad case，因此改用 DTW 算法。
话题检测：同一个事件会有多种表述方法，对应多个 query，因此需要把相同事件的 query 聚类到一起，形成话题。
事件识别&命名：热门的话题中往往会伴随一些非事件型的话题，如热门美剧更新时，会出现一个热度高潮，上述方法会混入一些非事件，因此我们需要对热门的话题做一个分类。一个非常有效的特征是 url 中的一些单词，会很有区分性。

4. 关联关系

文章插图

个性化推荐系统中除了要满足用户当前兴趣以外，还需要探索到用户未知的潜在兴趣点，扩展用户阅读视野。因此需要对节点计算关联关系。目前我们仅针对实体做了关联关系的计算。
大家很容易想到，如果两个实体经常会在同一篇文档中出现，应该就是高关联的；或者用户经常连续搜索，即搜完 "刘德华"，然后会马上搜索 "朱丽倩"，应该也是高关联的。确实这种直觉是正确的。虽然这种方法准确率很高，但是会遇到一些问题：没有共现过的，会被认为没有任何的关系；对于共现少的 pair 对，关系的密切度计算误差也会比较大。
因此，需要通过实体向量化的形式克服上述问题。上述的共现数据可以作为正例，负样本采用同类实体随机负采样，正负样本比例1:3，通过 pair wise 的 loss 进行训练，得到每个实体的 embedding，然后计算任意两个实体的关联度。
内容理解
1. 文本分类

文章插图

主题分类层是 PM 整理的，但是 PM 整理的过程中可能会存在一些认知偏差。可以使用用户的点击行为对内容进行聚类，聚完类之后让 PM 去标注，从而总结出一些更适合的类别用于描述用户的兴趣。
2. 关键词抽取

文章插图

我们使用了比较传统的关键词提取思路，利用传统特征工程 + GBRank 算法排序。在实际中会遇到这样的问题，如示例，Twitter 出现在 title 中的实体，传统的方式会把 Twitter 分数计算的很高，但是这篇文章中却不是重点，重点是两支 LOL 战队的骂战。于是我们在 BGRank 之后，加了 re-rank 层，为所有的候选词做一个重排序。词之间边关系使用关联关系 embedding 计算相似度得到。
3. 语义匹配

文章插图

对于概念和事件类型的标签，原文中可能并不会出现，用抽取的方式就没有办法解决。我们采用召回+排序的方式解决。召回的逻辑分为关系召回和语义召回，其中关系召回会用到兴趣点图谱中的关系数据，召回 1-hop 内的节点作为候选，语义召回通过语义向量召回与 title 近邻的节点作为候选，然后用交互匹配的方式进行排序。如果 1-hop 内的节点数量太多，排序耗时会非常大，因此这里采用粗糙集的方式进行候选的粗排，缩小候选集合再进行排序。
线上效果